
Activez les alertes d’offres d’emploi par e-mail !
Générez un CV personnalisé en quelques minutes
Décrochez un entretien et gagnez plus. En savoir plus
Un institut de recherche environnementale recherche un stagiaire en Data Science pour poursuivre l'entraînement d'un modèle de fondation basé sur des données internes. Le stage est adressé à des étudiants Bac +4/5 en informatique ou data science avec une curiosité pour les nouvelles technologies et une expérience en apprentissage profond en Python. Une connaissance en chimie analytique est un plus. Stage conventionné et indemnisé.
Les grands modèles de langue ou les modèles de type Unet pour les images ont montré leur efficacité sur des tâches de classification ou de prédiction.
Même si ces modèles ont nécessité des sources de données d'entraînement volumineuses, il semble que le concept de modèle de fondation soit particulièrement bien adapté pour résoudre des problèmes pour lesquels nous ne disposons pas de telles quantités de données annotées.
A l'lneris, nous recourons de plus en plus à des appareillages (spectrométrie de masse) qui permettent de détecter de plus en plus de substances dans des échantillons environnementaux sans pour autant que nous soyons capables de les caractériser humainement compte tenu de l'ampleur de la tâche que cela représenterait (nombre de substances existantes, quantité de données à comparer...).
Aussi le recours à des techniques d'apprentissage profond peut nous aider à mieux caractériser ces substances (formule chimique, familles, abondance...) et ainsi apporter des réponses aux questions que se posent les populations et les décideurs sur les risques d'exposition à des substances toujours plus nombreuses dans l'environnement et potentiellement dangereuses. Une première étude menée en 2025 sur un modèle de type BERT nous a permis de confirmer la capacité des modèles de type transformer à capter et à exploiter l'information contenue dans les données HRMS.
Sur la base des travaux réalisés en 2025, l'objectif du stage consistera à poursuivre l'entraînement du modèle de fondation sur des données produites en interne ou par des partenaires de l'lneris appartenant au réseau Norman.
Le modèle sera ensuite adapté pour tenir compte de la dimension temporelle induite par la phase de chromatographie visant à séparer les molécules en amont de la phase de spectrométrie. Une architecture type VAE pourra également être testée dans l'objectif de caractériser le bruit des spectres puis de l'éliminer.
L'exploration d'une architecture de type GNN est également envisagée afin de permettre une meilleure flexibilité dans la prise en compte d'informations supplémentaires sur les substances chimiques.
Les modèles développés seront testés sur différentes tâches : caractérisation de substances (présence/absence, classification), détection d'événements (carte de contrôle) ...