Systèmes visuels de questions-réponses combinant un encodeur binarisé et des modèles de langage
CEA
Grenoble
Sur place
EUR 20 000 - 40 000
Plein temps
Il y a 30+ jours
Mulipliez les invitations à des entretiens
Créez un CV sur mesure et personnalisé en fonction du poste pour multiplier vos chances.
Résumé du poste
Une entreprise innovante propose une thèse passionnante sur les systèmes visuels de questions-réponses. Le candidat travaillera sur le développement d'un système VQA utilisant des réseaux de neurones binaires et des modèles de langage compacts. Ce projet offre une opportunité unique de contribuer à des avancées significatives dans le domaine du Tiny Deep Learning et d'explorer des applications concrètes. Le travail se concentrera sur la création d'une topologie robuste pour l'analyse sémantique, tout en respectant les contraintes matérielles. Rejoignez cette aventure pour faire avancer la recherche en IA et en traitement d'image.
Qualifications
- Connaissance approfondie en Intelligence Artificielle et Traitement d'Image.
- Expérience avec les réseaux de neurones binaires et les modèles de langage.
Responsabilités
- Développer un système de VQA efficace avec un encodeur BNN et un modèle de langage.
- Optimiser l'encodeur BNN pour une analyse sémantique en temps réel.
Connaissances
Intelligence Artificielle
Traitement d'Image
Tiny Deep Learning
Modèles de langage
Formation
Doctorat en Intelligence Artificielle
Master en Traitement d'Image
Outils
Réseaux de neurones binaires (BNN)
Modèles de langage compact (tiny LLM)
Description du sujet de thèse
Domaine
Défis technologiques
Sujets de thèse
Systèmes visuels de questions-réponses combinant un encodeur binarisé et des modèles de langage
Contrat
Thèse
Description de l'offre
Une des tendances majeures des imageurs intelligents est d'aller au-delà de fonctions d'inférence simple telle que la classification ou la détection d'objet. Cela peut notamment se traduire par le souhait d'ajouter des applications plus complexes permettant une compréhension sémantique de la scène. Parmi ces applications, le VQA (Visual Question Answering) permet aux systèmes d'IA de répondre à des questions, formulées avec du texte, en analysant les images. Dans ce contexte, ce sujet vise à développer un système efficace et embarqué de VQA intégrant un encodeur visuel basé sur des réseaux de neurones binaires (BNN) combiné avec un modèle de langage compact (tiny LLM). Même s'il existent encore de nombreuses étapes pour un portage matériel d'un système intégrant un LLM, ce projet représente une étape significative dans cette direction en s'appuyant sur des BNN. Cet encodeur traite des images en limitant le besoin en ressource de calcul, permettant un déploiement en temps réel sur des dispositifs embarqués. Des mécanismes d'attention seront intégrés pour extraire les informations sémantiques nécessaires à la compréhension de la scène. Le modèle de langage utilisé pourra être stocké localement et ajusté conjointement avec le BNN pour générer des réponses précises et contextuellement pertinentes.
Ce sujet de thèse offre une opportunité pour un candidat intéressé par le Tiny Deep Learning et les LLMs. Il propose un vaste champ de recherche pour des contributions significatives et des résultats intéressants pour des applications concrètes. Le travail consistera à développer une topologie de BNN robuste pour l'analyse sémantique d'une scène visuelle, en prenant en compte des contraintes matérielles (mémoire et calcul), à intégrer et à optimiser l'encodeur BNN avec le LLM, tout en assurant un système VQA cohérent et performant à travers différents types de requêtes et de cas d'usage.
Université / école doctorale
Electronique, Electrotechnique, Automatique, Traitement du Signal (EEATS)
Université Grenoble Alpes
Localisation du sujet de thèse
Site
Grenoble
Critères candidat
Formation recommandée
Intelligence Artificielle, Traitement d'Image
Demandeur
Disponibilité du poste
01/10/2025
Personne à contacter par le candidat
NGUYEN Thien vanthien.nguyen@cea.fr
CEA
DRT/DOPT//L3I
CEA leti/DOPT
Minatec Campus
17, rue des Martyrs
38054 Grenoble Cedex
0438780980
Tuteur / Responsable de thèse
GUICQUERO William william.guicquero@cea.fr
CEA
DRT/DOPT//L3I
CEA leti/DOPT
Minatec Campus
17, rue des Martyrs
38054 Grenoble Cedex
04 38 78 09 57
En savoir plus