Activez les alertes d’offres d’emploi par e-mail !
Une institution de recherche en technologie propose une thèse sur le raisonnement spatio-temporel dans les modèles vision-langage. Le candidat doit avoir un master ou diplôme d'ingénieur en informatique, science des données ou IA. La disponibilité commence le 1er octobre 2025. Un encadrant sera attribué pour guider la recherche.
Domaine: Défis technologiques
Justification visuelle du raisonnement spatio-temporel dans les modèles multimodaux vision-langage
Thèse
Les modèles vision-langage (VLMs) récents, comme BLIP, LLaVA et Qwen-VL, ont montré de bonnes performances sur des tâches multimodales, mais présentent encore des lacunes en raisonnement spatio-temporel. Les benchmarks actuels confondent souvent raisonnement visuel et connaissances générales, et ne sollicitent que peu de raisonnement complexe. De plus, ces modèles peinent à interpréter les relations spatiales fines et les scènes dynamiques, en raison d'une mauvaise exploitation des caractéristiques visuelles. Pour y remédier, des travaux récents (SpatialRGPT, SpaceVLLM, VPD, ST-VLM) ont introduit des innovations telles que l'intégration de graphes 3D, des requêtes spatio-temporelles ou l'apprentissage par instructions cinématiques. Cette thèse s'inscrit dans cette lignée en proposant une nouvelle approche pour améliorer le raisonnement spatio-temporel des VLMs grâce à des techniques avancées de représentation des données et d'architecture, avec des applications en robotique, analyse vidéo et compréhension d'environnements dynamiques.
Sciences et Technologies de l'Information et de la Communication (STIC) – Paris-Saclay
Site: Saclay
Formation recommandée:
Disponibilité du poste: 01/10/2025
https://kalisteo.cea.fr/
https://scholar.google.com/citations?user=5fE1oWwAAAAJ&hl=en