Activez les alertes d’offres d’emploi par e-mail !

STAGE - GÉOCODAGE COMPLEXE À L'AIDE DE MODÈLE DE LANGAGE

IGN

Champs-sur-Marne

Sur place

EUR 25 000 - 35 000

Plein temps

Il y a 30+ jours

Mulipliez les invitations à des entretiens

Créez un CV sur mesure et personnalisé en fonction du poste pour multiplier vos chances.

Résumé du poste

Un stage passionnant au sein d'une institution de recherche de premier plan, où vous aurez l'opportunité de travailler sur des projets innovants dans le domaine du géocodage et du traitement du langage naturel. Vous contribuerez à la création d'un outil de géocodage basé sur des modèles de langage avancés, tout en collaborant avec des experts d'horizons variés. Ce rôle vous permettra d'explorer des défis complexes et de participer à une recherche interdisciplinaire, tout en ayant accès à des ressources académiques de pointe. Si vous êtes passionné par l'intelligence artificielle et la géographie, cette expérience sera enrichissante et stimulante.

Prestations

Accès à des bibliothèques
Restaurants universitaires
Accès au campus
Collaboration interdisciplinaire

Qualifications

  • Intérêt pour le traitement du langage naturel et la géographie.
  • Capacité à travailler sur des projets interdisciplinaires.

Responsabilités

  • Créer un outil de géocodage basé sur un modèle de langage.
  • Concevoir et évaluer un LLM pour le géocodage.

Connaissances

Traitement du langage naturel
Géographie
Intelligence artificielle

Formation

Master 2
Ingénieur en 3ème année

Description du poste

Le géocodage, soit l'attribution de coordonnées géographiques à des descriptions textuelles de lieux, est une tâche d’information retrieval essentielle pour les sciences de l’information géographique. Elle constitue une étape cruciale dans les chaînes de traitement et d’analyse de nombreux domaines, scientifiques ou techniques, tels que la recherche en sciences sociales ou l’aménagement du territoire, car elle permet de cartographier automatiquement de grandes quantités de ressources diverses : documents, tweets, etc.

Bien que de nombreux outils grand public intègrent un géocodeur (ex. Nominatim pour OpenStreetMap, Mes Adresses pour l’IGN, Google Maps), plusieurs défis persistent, notamment le géocodage de descriptions textuelles complexes ou imprécises, la prise en compte des relations spatiales relatives (ex. « en face de... ») ou encore le géocodage de lieux historiques n’existent plus dans les bases de données actuelles.

L’avènement des (grands) modèles de langage ouvre de nouvelles perspectives pour surmonter ces obstacles en apportant une capacité de compréhension fine et contextuelle des descriptions complexes de lieux. Ce stage vise deux objectifs :

  1. Réaliser une preuve de concept d’un géocodeur basé sur une approche index-retrieve-rank classique exploitant des plongements lexicaux de textes/documents, servant de baseline pour explorer la recherche d’information générative, une approche émergente end-to-end utilisant un LLM pour prédire directement l’identifiant du document correspondant à une requête.
  2. Proposer une méthode pour encoder des identifiants de ressources (docId) intégrant une connaissance géographique, et évaluer la performance de cette approche.

Ce stage s’inscrit dans une dynamique de recherche interdisciplinaire entre le LASTIG de l’IGN et le Centre de Recherches Historique de l’EHESS, avec un cadre de travail basé sur une collaboration de longue durée. Il utilisera un jeu de données géohistorique du projet ANR TopUrbi, comprenant descriptions et localisations de près de 15 000 lieux de l’empire hispanique au XVIIIe siècle. En démarche de science ouverte, tous les codes et modèles seront déposés en open source.

Missions :
  • Créer une preuve de concept d’un outil de géocodage index-retrieve-rank exploitant un modèle de langage & évaluer ses performances ;
  • Concevoir, entraîner et évaluer un LLM de recherche d’information générative pour le géocodage, en proposant une approche pour créer des identifiants de ressources géographiques ;
  • Réaliser une étude comparative des approches testées ;

Profil recherché : étudiant ou étudiante en M2 ou ingénieur en 3ème année, avec un intérêt pour le traitement du langage naturel, la géographie ou l’intelligence artificielle.

Le stage se déroule sur le campus de l'Université Gustave Eiffel, accessible par le RER A, avec accès aux bibliothèques, restaurants universitaires et d'entreprise.

Obtenez votre examen gratuit et confidentiel de votre CV.
ou faites glisser et déposez un fichier PDF, DOC, DOCX, ODT ou PAGES jusqu’à 5 Mo.