Activez les alertes d’offres d’emploi par e-mail !

Justification visuelle du raisonnement spatio-temporel dans les modèles multimodaux vision-langage

CEA

Saclay

Sur place

EUR 40 000 - 60 000

Plein temps

Aujourd’hui

Soyez parmi les premiers à postuler

Résumé du poste

Une institution de recherche en technologie propose une thèse sur le raisonnement spatio-temporel dans les modèles vision-langage. Le candidat doit avoir un master ou diplôme d'ingénieur en informatique, science des données ou IA. La disponibilité commence le 1er octobre 2025. Un encadrant sera attribué pour guider la recherche.

Qualifications

Formation recommandée en Informatique, Science des données ou IA.

Responsabilités

Proposer une approche pour améliorer le raisonnement spatio-temporel des VLMs.
Travailler sur des applications en robotique, analyse vidéo et compréhension d'environnements dynamiques.

Connaissances

Informatique

Science des données

Intelligence Artificielle

Formation

Ingénieur ou Master en Informatique, Science des données ou IA

Description du sujet de thèse

Domaine: Défis technologiques

Sujets de thèse

Justification visuelle du raisonnement spatio-temporel dans les modèles multimodaux vision-langage

Contrat

Thèse

Description de l'offre

Les modèles vision-langage (VLMs) récents, comme BLIP, LLaVA et Qwen-VL, ont montré de bonnes performances sur des tâches multimodales, mais présentent encore des lacunes en raisonnement spatio-temporel. Les benchmarks actuels confondent souvent raisonnement visuel et connaissances générales, et ne sollicitent que peu de raisonnement complexe. De plus, ces modèles peinent à interpréter les relations spatiales fines et les scènes dynamiques, en raison d'une mauvaise exploitation des caractéristiques visuelles. Pour y remédier, des travaux récents (SpatialRGPT, SpaceVLLM, VPD, ST-VLM) ont introduit des innovations telles que l'intégration de graphes 3D, des requêtes spatio-temporelles ou l'apprentissage par instructions cinématiques. Cette thèse s'inscrit dans cette lignée en proposant une nouvelle approche pour améliorer le raisonnement spatio-temporel des VLMs grâce à des techniques avancées de représentation des données et d'architecture, avec des applications en robotique, analyse vidéo et compréhension d'environnements dynamiques.

Université / école doctorale

Sciences et Technologies de l'Information et de la Communication (STIC) – Paris-Saclay

Localisation du sujet de thèse

Site: Saclay

Critères candidat

Formation recommandée:

Ingénieur ou Master en Informatique, Science des données ou IA

Demandeur

Disponibilité du poste: 01/10/2025

Personne à contacter par le candidat

TUO Aboubacar aboubacar.tuo@cea.fr – CEA, DRT/DIASI//LVA, CEA-Saclay, BP 28, GIF-SUR-YVETTE CEDEX, ESSONNE 91191, France, 0656802188

Tuteur / Responsable de thèse

LOESCH Angélique angelique.loesch@cea.fr – CEA, DRT/DIASI//LVA, CEA-Saclay, BP 28, GIF-SUR-YVETTE CEDEX, ESSONNE 91191, France

https://kalisteo.cea.fr/

https://scholar.google.com/citations?user=5fE1oWwAAAAJ&hl=en

Obtenez votre examen gratuit et confidentiel de votre CV.

ou faites glisser et déposez un fichier PDF, DOC, DOCX, ODT ou PAGES jusqu’à 5 Mo.

Noté « Excellent » sur la base de 18 072 évaluations

Justification visuelle du raisonnement spatio-temporel dans les modèles multimodaux vision-langage

CEA

Saclay

Sur place

EUR 40 000 - 60 000

Plein temps

Résumé du poste

Qualifications

Responsabilités

Connaissances

Formation

Entreprise

Services

Ressources gratuites

Assistance

Justification visuelle du raisonnement spatio-temporel dans les modèles multimodaux vision-langage

CEA

Saclay

Sur place

EUR 40 000 - 60 000

Plein temps

Résumé du poste

Qualifications

Responsabilités

Connaissances

Formation

Suivez-nous

Entreprise

Services

Ressources gratuites

Assistance

EUR 40 000 - 60 000