
Activez les alertes d’offres d’emploi par e-mail !
Générez un CV personnalisé en quelques minutes
Décrochez un entretien et gagnez plus. En savoir plus
Un institut de recherche environnementale en Hauts-de-France propose un stage pour développer des méthodes d'analyse textuelle dans le cadre du projet européen NAMWISE. Le candidat idéal est en Bac+4/5 en Informatique ou Data Science, curieux et ouvert aux nouvelles technologies, avec des compétences rédactionnelles et en Python. Le stage est conventionné et indemnisé, avec une compensation possible pour les frais de transport.
L'INERIS coordonne le projet européen NAMWISE qui vise à étudier et formaliser les méthodes alternatives aux expérimentations animales, appelées NAM (New Approach Methodologies). Ces méthodes NAM offrent des solutions éthiques et innovantes pour évaluer la toxicité des substances étudiées. Ces méthodologies sont applicables dans différents domaines tels que le domaine pharmaceutique ou celui de la cosmétique, ou encore pour le classement des substances chimiques. Ce domaine est en pleine expansion depuis les années 2000, ce qui se reflète par la multitude d'articles scientifiques publiés à ce sujet ces dernières années, bien que le concept de NAM ne soit utilisé que depuis les années 2020.
Sur la base de travaux réalisés en 2025, l'objectif du stage consistera à développer des méthodes d'analyse textuelle pour automatiser l'identification et l'exploitation de publications scientifiques dans le domaine des NAM.
L'un des enjeux du projet consiste à apporter la preuve que le recueil d'informations répond bien aux demandes des experts et ne vient pas remplacer une tâche fastidieuse de relecture par une nouvelle tâche de validation tout aussi chronophage.
Pour cela, il est attendu que des modèles de langue soient exploités comme le modèle SciBert ou d'autres sur la base d'une première recherche bibliographique qui s'appuiera notamment sur les travaux réalisés par l'EFSA (2) dans ce domaine.
Le recours à des ontologies comme l'ontologie comptox pourrait s'avérer utile autant pour l'apprentissage profond dans le domaine que pour la validation des informations extraites.
L'exploitation de modèles de types GAN (3) pourraient également être envisagés y compris pour mesurer les retours des « vrais » experts lors des tests.
Des modèles NER (4) comme BioNLP pourraient également servir à constituer une base de concepts utile à l'exploration des articles.
Enfin, la mise en place du RAG, base de connaissances sur laquelle s'appuyer pour analyser les articles, pourrait permettre de capitaliser la connaissance acquise au cours des précédentes étapes et fournir un environnement propice à la veille sur ce sujet.
(1) Novel Approach Methodologies, New Approach Methods ou encore Non-Animal Methods
(2) European Food Safety Authority
(3) GAN : Generative Adversarial Network
(4) NER: Named Entity Recognition