Activez les alertes d’offres d’emploi par e-mail !

Justification visuelle du raisonnement spatio-temporel dans les modèles multimodaux vision-langage

CEA

Saclay

Sur place

EUR 40 000 - 60 000

Plein temps

Aujourd’hui
Soyez parmi les premiers à postuler

Résumé du poste

Une institution de recherche en technologie propose une thèse sur le raisonnement spatio-temporel dans les modèles vision-langage. Le candidat doit avoir un master ou diplôme d'ingénieur en informatique, science des données ou IA. La disponibilité commence le 1er octobre 2025. Un encadrant sera attribué pour guider la recherche.

Qualifications

  • Formation recommandée en Informatique, Science des données ou IA.

Responsabilités

  • Proposer une approche pour améliorer le raisonnement spatio-temporel des VLMs.
  • Travailler sur des applications en robotique, analyse vidéo et compréhension d'environnements dynamiques.

Connaissances

Informatique
Science des données
Intelligence Artificielle

Formation

Ingénieur ou Master en Informatique, Science des données ou IA
Description du poste
Description du sujet de thèse

Domaine: Défis technologiques

Sujets de thèse

Justification visuelle du raisonnement spatio-temporel dans les modèles multimodaux vision-langage

Contrat

Thèse

Description de l'offre

Les modèles vision-langage (VLMs) récents, comme BLIP, LLaVA et Qwen-VL, ont montré de bonnes performances sur des tâches multimodales, mais présentent encore des lacunes en raisonnement spatio-temporel. Les benchmarks actuels confondent souvent raisonnement visuel et connaissances générales, et ne sollicitent que peu de raisonnement complexe. De plus, ces modèles peinent à interpréter les relations spatiales fines et les scènes dynamiques, en raison d'une mauvaise exploitation des caractéristiques visuelles. Pour y remédier, des travaux récents (SpatialRGPT, SpaceVLLM, VPD, ST-VLM) ont introduit des innovations telles que l'intégration de graphes 3D, des requêtes spatio-temporelles ou l'apprentissage par instructions cinématiques. Cette thèse s'inscrit dans cette lignée en proposant une nouvelle approche pour améliorer le raisonnement spatio-temporel des VLMs grâce à des techniques avancées de représentation des données et d'architecture, avec des applications en robotique, analyse vidéo et compréhension d'environnements dynamiques.

Université / école doctorale

Sciences et Technologies de l'Information et de la Communication (STIC) – Paris-Saclay

Localisation du sujet de thèse

Site: Saclay

Critères candidat

Formation recommandée:

  • Ingénieur ou Master en Informatique, Science des données ou IA
Demandeur

Disponibilité du poste: 01/10/2025

Personne à contacter par le candidat
  • TUO Aboubacar aboubacar.tuo@cea.fr – CEA, DRT/DIASI//LVA, CEA-Saclay, BP 28, GIF-SUR-YVETTE CEDEX, ESSONNE 91191, France, 0656802188
Tuteur / Responsable de thèse
  • LOESCH Angélique angelique.loesch@cea.fr – CEA, DRT/DIASI//LVA, CEA-Saclay, BP 28, GIF-SUR-YVETTE CEDEX, ESSONNE 91191, France
En savoir plus

https://kalisteo.cea.fr/

https://scholar.google.com/citations?user=5fE1oWwAAAAJ&hl=en

Obtenez votre examen gratuit et confidentiel de votre CV.
ou faites glisser et déposez un fichier PDF, DOC, DOCX, ODT ou PAGES jusqu’à 5 Mo.