Stagiaire assistant ia / data - rag hiérarchique H/F
Stage de 6 mois à pourvoir sur Brest à partir du 02/03/2026
État de l'art
Étudier les méthodes de retrieval denses (bi-encodeurs) et les techniques d'encodage de documents structurés (ex: modèles de layout-aware).
Modélisation & Implémentation
- Conserver la représentation latente (embedding) de chaque "chunk" (élément fin).
- Entraîner un modèle d'agrégation au niveau de la Page, qui produit un unique vecteur sémantique encapsulant tous les éléments qu'elle contient.
- Entraîner un modèle d'agrégation au niveau du Document, qui produit un vecteur global encapsulant l'ensemble de ses pages.
Expérimentation
- Mettre en œuvre le pipeline de recherche hiérarchique.
- Évaluer rigoureusement la performance du retriever en utilisant notre benchmark interne déjà établi, basé sur une évaluation au niveau de la page.
- Analyse & Synthèse : Comparer l'approche hiérarchique aux méthodes de RAG "plates" (flat RAG) et rédiger un rapport technique.
Qualifications
- Étudiant(e) en Master 2 ou dernière année d'École d'Ingénieur (Informatique, IA, Data Science, NLP).
- Compétences solides en Python et dans un framework de Deep Learning majeur (PyTorch).
- Un premier contact avec les systèmes RAG (ex: LangChain, LlamaIndex) ou les bases de données vectorielles est un plus très apprécié.
- Qualités : Rigueur scientifique, curiosité, autonomie et goût pour la R&D fondamentale.