Job Search and Career Advice Platform

Activez les alertes d’offres d’emploi par e-mail !

Stage - Génération de Données Synthétiques pour L'Evaluation et l'Amélioration des Systèmes RAG F-H

Preligens

Île-de-France

Sur place

EUR 20 000 - 40 000

Temps partiel

Il y a 30+ jours

Générez un CV personnalisé en quelques minutes

Décrochez un entretien et gagnez plus. En savoir plus

Résumé du poste

Une entreprise internationale de haute technologie recherche un stagiaire pour travailler sur la génération de données synthétiques visant à évaluer et améliorer des systèmes RAG. Le candidat idéal doit avoir un diplôme de Master et de solides compétences en Python et machine learning, ainsi que de la familiarité avec des frameworks d'apprentissage profond. Le stage se déroule à Châteaufort, Île-de-France.

Qualifications

  • Solides compétences en programmation Python.
  • Familiarité avec un ou plusieurs frameworks d'apprentissage profond.
  • Une première expérience recherche dans le NLP et les LLMs serait un plus.

Responsabilités

  • Développer des méthodes pour l'évaluation et amélioration des systèmes RAG.
  • Générer des jeux de données synthétiques adaptés aux cas d'usage.

Connaissances

Python
Machine Learning
Natural Language Processing (NLP)
Large Language Models (LLMs)

Formation

Master universitaire ou Diplôme d'Ingénieur

Outils

Transformers
PyTorch
TensorFlow
Description du poste
Stage - Génération de Données Synthétiques pour L\'Évaluation et l\'Amélioration des Systèmes RAG F/H

Published: 10.13.2025

Company: Safran

Job field: Mathematics and algorithms

Location: Châteaufort, Ile de France, France

Contract type: Internship / Student

Contract duration: Full-time

Required degree: Master Degree

Required experience: First experience

Professional status: Student

Job Description

Safran est un groupe international de haute technologie, leader mondial dans les domaines de l\'Aéronautique, de l\'Espace, de la Défense et de la Sécurité. Au sein du centre de R&T du groupe (Safran Tech), l\'Unité de Recherche Maths & Algorithms for Temporal Data (MATD) développe des méthodes innovantes en collaboration avec des partenaires académiques, dans des domaines tels que les Grands Modèles de Langage (Large Language Models, LLMs).

Pour améliorer la qualité des réponses et adapter le modèle à des connaissances spécifiques, l\'approche Retrieval-Augmented Generation (RAG) consiste à coupler un ou plusieurs LLMs avec une base de données externe [1]. Cette méthode présente l\'avantage d\'augmenter les connaissances du LLM avec des données régulièrement mises à jour et potentiellement confidentielles qui n\'ont pas été intégrées lors du pré-entraînement ou du fine-tuning. Cette approche facilite également l\'accès aux informations internes par l\'identification et l\'extraction d\'informations pertinentes. Cependant, l\'amélioration (via fine-tuning) et l\'évaluation rigoureuse de ces solutions restent un défi majeur, notamment en raison de la diversité des cas d\'application et de données labélisées adaptés à ces différents cas d\'usage.

Problématique

L\'amélioration et l\'évaluation des systèmes RAG nécessite des jeux de données représentatifs des tâches et domaines d\'application ciblés. Cependant, la plupart des jeux de données publics sont génériques et inadaptés aux cas d\'usage industriels spécifiques, comme ceux rencontrés chez Safran. Les jeux de données spécialement conçus pour le secteur aéronautique demeurent particulièrement rares et se cantonnent généralement à des tâches très spécialisées. Par ailleurs, la création et l\'annotation manuelle de jeux de données par des experts humains s\'avèrent particulièrement coûteuses et chronophages. Une approche prometteuse consiste à générer des jeux de données synthétiques adaptés aux cas d\'usage spécifiques en exploitant les capacités des LLMs.

Job Requirements
  • Niveau d\'étude : Master universitaire, Diplôme d\'Ingénieur ou équivalent avec formations en Machine Learning, Natural Langage Processing (NLP), Large Language Models (LLMs), Mathématiques ou dans un domaine technique pertinent.
  • Solides compétences en programmation Python.
  • Familiarité avec un ou plusieurs frameworks d\'apprentissage profond (Transformers, PyTorch, Tensorflow, etc).
  • Une première expérience recherche dans le NLP et les LLMs serait un plus.
But what else? (advantages, specific features, etc.)

Unité d\'Accueil : Unité MATD, Safran Tech, Rue des jeunes Bois, 78117 Châteaufort.

Début souhaité : adaptable au profil

Company Information

Safran is an international high-technology group, operating in the aviation (propulsion, equipment and interiors), defense and space markets. Its core purpose is to contribute to a safer, more sustainable world, where air transport is more environmentally friendly, comfortable and accessible. Safran has a global presence, with 100,000 employees and sales of 27.3 billion euros in 2024, and holds, alone or in partnership, world or regional leadership positions in its core markets.

Safran is in the 2nd place in the aerospace and defense industry in TIME magazine\'s "World\'s best companies 2024" ranking.

Because we are convinced that each talent counts, we value and encourage applications from people with disabilities for our job opportunities.

Locate your future workplace

Rue des jeunes bois 78117

Châteaufort

Ile de France France

Other internships

10.14.2025 Mathematics and algorithms — Stage : Tomographie par comptage de photon F-H — Internship - Student — Châteaufort, Ile de France

10.13.2025 Mathematics and algorithms — Stage - Apprentissage neuronal séquentiel pour l\'estimation d\'indicateurs de santé moteur F-H — Internship - Student — Châteaufort, Ile de France

10.13.2025 Mathematics and algorithms — Stage: Méthodologie calculs thermo-élastiques accélérés: AutoEncodeur Variationnel pour la mécanique F-H — Internship - Student — Châteaufort, Ile de France

Obtenez votre examen gratuit et confidentiel de votre CV.
ou faites glisser et déposez un fichier PDF, DOC, DOCX, ODT ou PAGES jusqu’à 5 Mo.