Activez les alertes d’offres d’emploi par e-mail !

Modèles de fondation multimodaux à grain fin et ancrés spatio-temporellement.

CEA

Saclay

Sur place

EUR 40 000 - 60 000

Plein temps

Il y a 13 jours

Mulipliez les invitations à des entretiens

Créez un CV sur mesure et personnalisé en fonction du poste pour multiplier vos chances.

Résumé du poste

Le CEA recrute un doctorant pour un projet innovant sur les modèles multimodaux à grain fin. Ce projet explore l'intégration de données spatio-temporelles pour améliorer les performances des modèles de traitement multimédia. Une opportunité pour des candidats passionnés par l'IA pour rejoindre une équipe dynamique au Paris-Saclay.

Qualifications

  • Formation recommandée : Master en informatique ou IA.
  • Compétences requises en gestion de données multimodales et en annotation.

Responsabilités

  • Développer des pipelines pour enrichir des jeux de données avec des métadonnées.
  • Réguler la diversité et la compacité des données par le contrôle d'exemples.
  • Améliorer l'alignement entre les légendes et les régions d'image.

Connaissances

Modèles multimodaux
Intelligence artificielle
Analyse de données

Formation

Master en informatique ou intelligence artificielle

Description du poste

Description du sujet de thèse

Domaine

Défis technologiques

Sujets de thèse

Modèles de fondation multimodaux à grain fin et ancrés spatio-temporellement.

Contrat

Thèse

Description de l'offre

Ce projet de thèse porte sur l'amélioration des modèles multimodaux de grande taille (LMMs) par l'intégration d'informations fines et spatio-temporelles dans les ensembles de données d'entraînement. Bien que les modèles actuels tels que CLIP et Flamingo présentent de bonnes performances, ils s'appuient sur des paires image-texte bruitées et peu structurées, sans ancrage spatial ou temporel explicite. La thèse vise à développer des pipelines automatiques permettant d'enrichir les jeux de données avec des métadonnées géographiques et temporelles, à affiner les légendes par l'introduction de descripteurs sémantiques plus précis, et à réguler la diversité et la compacité des données par un contrôle du nombre d'exemples par classe.

Les stratégies d'entraînement exploiteront des hiérarchies de classes et adapteront les protocoles afin d'améliorer l'alignement entre les éléments des légendes et les régions d'image correspondantes. Le travail portera également sur des régimes d'entraînement conjoints intégrant simultanément les dimensions fine, spatiale et temporelle, ainsi que sur une phase d'inférence orientée vers la génération de contenus diversifiés en mode 'ensemble'. Le projet abordera également des enjeux liés à la qualité des métadonnées, à l'adaptation efficace des modèles, et à la conception de benchmarks adaptés à l'évaluation multi-dimensionnelle.

Les applications ciblées incluent la génération de données synthétiques pour la conduite autonome, l'annotation enrichie d'archives médiatiques via des légendes contextualisées, et une meilleure compréhension visuelle dans les environnements industriels simulés.

Université / école doctorale

Sciences et Technologies de l'Information et de la Communication (STIC)
Paris-Saclay

Localisation du sujet de thèse

Site

Saclay

Critères candidat

Formation recommandée

Master en informatique ou intelligence artificielle

Demandeur

Disponibilité du poste

01/10/2025

Personne à contacter par le candidat

KARA Sandra
CEA
DRT/DIASI//LASTI
CEA SACLAY - NANO INNOV
BAT. 861
Point courier 173
91191 GIF SUR YVETTE

Tuteur / Responsable de thèse

POPESCU Adrian adrian.popescu@cea.fr
CEA
DRT/DIASI//LASTI
CEA SACLAY - NANO INNOV
BAT. 861
Point courier 173
91191 GIF SUR YVETTE

0169080154

En savoir plus

https://kalisteo.cea.fr/index.php/
Obtenez votre examen gratuit et confidentiel de votre CV.
ou faites glisser et déposez un fichier PDF, DOC, DOCX, ODT ou PAGES jusqu’à 5 Mo.