Activez les alertes d’offres d’emploi par e-mail !

Développement de modèles de langage pour l'analyse de publications scientifiques

Ineris: Institut national de l'environnement industriel et des risques

Verneuil-en-Halatte

Sur place

EUR 20 000 - 40 000

Plein temps

Aujourd’hui

Soyez parmi les premiers à postuler

Générez un CV personnalisé en quelques minutes

Décrochez un entretien et gagnez plus. En savoir plus

Résumé du poste

Un institut de recherche environnementale en Hauts-de-France propose un stage pour développer des méthodes d'analyse textuelle dans le cadre du projet européen NAMWISE. Le candidat idéal est en Bac+4/5 en Informatique ou Data Science, curieux et ouvert aux nouvelles technologies, avec des compétences rédactionnelles et en Python. Le stage est conventionné et indemnisé, avec une compensation possible pour les frais de transport.

Prestations

Stage conventionné et indemnisé

Indemnisation des frais de transport sous conditions

Qualifications

Une curiosité pour les nouvelles technologies et la recherche d'information.
Capacité à vulgariser des notions techniques.
Expérience avec l'apprentissage profond en Python.

Responsabilités

Développer des méthodes d'analyse textuelle pour des publications scientifiques.
Exploiter des modèles de langue comme SciBert et BioNLP.
Mettre en place des bases de connaissances pour analyser des articles.

Connaissances

Curiosité

Ouverture aux nouvelles technologies

Capacités rédactionnelles

Manipulation de méthodes d'apprentissage profond en Python

Connaissance des méthodes d'analyse textuelle

Anglais technique

Sens du contact

Formation

Bac+4/5

Spécialité: Informatique, Data Science

Contexte

L'INERIS coordonne le projet européen NAMWISE qui vise à étudier et formaliser les méthodes alternatives aux expérimentations animales, appelées NAM (New Approach Methodologies). Ces méthodes NAM offrent des solutions éthiques et innovantes pour évaluer la toxicité des substances étudiées. Ces méthodologies sont applicables dans différents domaines tels que le domaine pharmaceutique ou celui de la cosmétique, ou encore pour le classement des substances chimiques. Ce domaine est en pleine expansion depuis les années 2000, ce qui se reflète par la multitude d'articles scientifiques publiés à ce sujet ces dernières années, bien que le concept de NAM ne soit utilisé que depuis les années 2020.

Objectifs du stage

Sur la base de travaux réalisés en 2025, l'objectif du stage consistera à développer des méthodes d'analyse textuelle pour automatiser l'identification et l'exploitation de publications scientifiques dans le domaine des NAM.

L'un des enjeux du projet consiste à apporter la preuve que le recueil d'informations répond bien aux demandes des experts et ne vient pas remplacer une tâche fastidieuse de relecture par une nouvelle tâche de validation tout aussi chronophage.

Pour cela, il est attendu que des modèles de langue soient exploités comme le modèle SciBert ou d'autres sur la base d'une première recherche bibliographique qui s'appuiera notamment sur les travaux réalisés par l'EFSA (2) dans ce domaine.

Le recours à des ontologies comme l'ontologie comptox pourrait s'avérer utile autant pour l'apprentissage profond dans le domaine que pour la validation des informations extraites.

L'exploitation de modèles de types GAN (3) pourraient également être envisagés y compris pour mesurer les retours des « vrais » experts lors des tests.

Des modèles NER (4) comme BioNLP pourraient également servir à constituer une base de concepts utile à l'exploration des articles.

Enfin, la mise en place du RAG, base de connaissances sur laquelle s'appuyer pour analyser les articles, pourrait permettre de capitaliser la connaissance acquise au cours des précédentes étapes et fournir un environnement propice à la veille sur ce sujet.

(1) Novel Approach Methodologies, New Approach Methods ou encore Non-Animal Methods

(2) European Food Safety Authority

(3) GAN : Generative Adversarial Network

(4) NER: Named Entity Recognition

PROFIL

Bac+4/5
Ce stage s’adresse à la spécialité: Informatique, Data Science…
Votre curiosité et votre ouverture aux nouvelles technologies, vous facilitent la recherche d’information auprès de vos collègues mais aussi des acteurs du domaine.
Vos capacités rédactionnelles vous permettent en particulier de vulgariser les notions inhérentes aux concepts des méthodes à base de réseaux de neurones (exemples d'utilisation, sources documentaires).
Vous savez déjà manipuler des méthodes d'apprentissage profond en python. La pratique du lancement de codes sur une partition GPU d’un cluster de calcul haute performance serait un plus.
La connaissance, voire la pratique, de méthodes d'analyse textuelle est vivement recommandée.
Vous êtes à l’aise avec l’anglais et comprenez les documentations techniques du domaine.
Vous possédez un sens du contact qui vous permet de vous adresser facilement à des experts métier de tous domaines et de tous niveaux.
Stage conventionné et indemnisé
Indemnisation des frais de transport sous conditions