Stagiaire assistant ia / data - chaîne rag H/F
Stage de 6 mois à pourvoir sur Brest à compter de mars 2026.
Axe 1 : Indexation Hybride (Sémantique + Mots‑clés)
- Mettre en œuvre une stratégie de retrieval hybride combinant : la recherche sémantique (via embeddings) pour la compréhension du sens.
- La recherche lexicale (ex : BM25, TF‑IDF) pour garantir la remontée des documents contenant des termes métiers ou des acronymes spécifiques (que le sémantique seul peut manquer).
- Évaluer l’équilibre entre ces deux approches.
Axe 2 : Expansion de Requête (Multi‑Query)
- Explorer les techniques de "query expansion" pour reformuler la question initiale de l’utilisateur.
- Développer une approche Multi‑Query où un LLM génère plusieurs variantes de la question, en y injectant des synonymes et, surtout, des termes du vocabulaire métier pertinent, afin d’augmenter les chances de "toucher" le bon document.
Axe 3 : Filtrage Métadonnées & "Routage Métier"
- Mettre en place un système de filtrage par silos métiers (ex : produits, périmètres fonctionnels, ...).
- L’enjeu sera d’associer la requête utilisateur au bon silo avant l’étape de retrieval pour éviter la "contamination" contextuelle.
- Vous explorerez les méthodes pour : induire les métadonnées (le silo) à partir de la question de l’utilisateur.
- Guider l’utilisateur (via l’interface) pour qu’il précise son périmètre de recherche.
- Synthèse et Benchmark : mener une campagne d’évaluation rigoureuse pour mesurer l’apport de chaque brique et leur combinaison.
Compétences et qualifications
Étudiant(e) en Master 2 ou dernière année d’École d’Ingénieur en Informatique, Data Science ou Intelligence Artificielle.
- Compétences solides en Python.
- Connaissances en NLP.
- Une première expérience (même via des projets) avec les systèmes RAG (ex : LangChain) et les bases de données vectorielles est un atout majeur.
- Qualités : curiosité technique, pragmatisme, autonomie et esprit analytique.