À propos de nous
Premier pôle européen de recherche, de soins et d’enseignement sur les maladies génétiques créé en 2007 au cœur du campus de l’Hôpital Necker-Enfants malades. Sa mission ? Mieux comprendre les maladies génétiques pour mieux les guérir.
L’Institut Imagine est un endroit unique au monde qui rassemble chercheurs, patients, médecins et personnels de santé dans une architecture créatrice de synergies au service d’une même ambition : changer la vie des familles touchées par les maladies génétiques.
Mission
Dans le cadre d’un projet visant à reconstituer l’histoire clinique de patients, l’équipe Data Science recrute un Data Scientist / ML Engineer H / F.
L’objectif du projet est d’extraire, depuis des comptes rendus médicaux (texte libre), des informations sur l’état des patients et de les associer à un repère temporel (date ou indication de temps) afin de caractériser finement l’évolution clinique des patients.
Cette approche vise à produire des profils patients détaillés, pour aider au diagnostic, à l’orientation thérapeutique et à une meilleure compréhension des maladies rares étudiées.
Une application concrète de l’outil développé sera d’évaluer sa pertinence pour caractériser deux cohortes de patients atteints de maladies rares : ciliopathies et épilepsies rares, deux contextes cliniques où l’évolution temporelle joue un rôle central.
À terme, un pipeline complet sera produit et partagé, incluant l’utilisation de modèles de langage généralistes (e.g. LLMs) non entraînés sur des données patients.
Au sein de l’institut, la plateforme Data Science est particulièrement responsable du développement :
De bases de données pour les équipes de recherche : constitution de cohortes de patients et analyse des données
D’un entrepôt de données biomédicales : moteur de recherche et fouille de données
De méthodes de data mining et d’extractions d’information par des méthodes d’intelligence artificielle (Traitement automatique du langage, traitements des images)
D’applications pour aider les médecins et scientifiques dans leurs recherches
Dans le cadre de ce projet, le futur Data Scientist / ML engineer H / F sera chargé de :
Faire de la veille méthodologique et technique sur le sujet (aspects données et médicaux en collaboration avec les spécialistes)
Participer au choix méthodologiques effectués
Développer des pipelines d’extraction de relations temporelles depuis des comptes rendus cliniques et de chronologies depuis des dossiers patients
Mettre en place des procédures d’évaluation et de comparaison de modèles / pipelines candidats
Participer au contrôle qualité, à la création et mise en forme des données d'entraînement
Effectuer l’analyse des données collectées
Participer à l’industrialisation des pipelines développés en collaboration avec des membres de la plateforme
Communiquer les résultats obtenus (présentations, rapports, participation à la rédaction d’articles scientifiques)
Collaborer avec les équipes techniques, métiers et analytiques
Profil
À la croisée des chemins entre Data Scientist et ML Engineer, vous :
Êtes capable d’analyser des données , d’évaluer des approches méthodologiques en fonction de l’objectif du projet, et d’échanger à ce sujet avec les responsables scientifiques.
Avez l’habitude d’évoluer dans un environnement interdisciplinaire , en interaction avec des médecins, chercheurs, ingénieurs et spécialistes en maladies rares.
Savez communiquer vos résultats, vos avancées, ainsi que les éventuelles difficultés rencontrées de manière claire, quel que soit l’interlocuteur.
Concentrez votre travail sur la compréhension fine de la tâche à accomplir , et utilisez les méthodologies (NLP, machine learning, deep learning, statistiques…) comme outils au service de cette tâche .
Êtes à la fois curieux(se), proactif(ve) et à l’écoute : vous savez faire preuve d’autonomie tout en intégrant les retours et choix des responsables de projet et partenaires.
Les documents traités étant en français , une excellente compréhension écrite du français est indispensable. Vous serez impliqué(e) dans la production et le contrôle qualité des données textuelles annotées .
Compétences et expérience
Formation Bac+5, doctorat ou diplôme d’école d’ingénieur.
Expérience de 2 ans sur des projets similaires souhaitable.
Maîtrise des techniques de traitement du langage naturel (NLP) , d’ analyse de données et de développement de modèles de machine learning et deep learning .
Maîtrise des environnement linux
Bonne connaissance des frameworks courants : huggingface / transformers, PyTorch, scikit-learn, etc.
Contrat
Prise de fonction : fin 2025 / début 2026
Localisation : Institut Imagine - 24 boulevard du Montparnasse 75015 PARIS
Télétravail possible 2j / semaine
Accès aux associations sportives et culturelles
Salaire selon profil et expérience.
* The salary benchmark is based on the target salaries of market leaders in their relevant sectors. It is intended to serve as a guide to help Premium Members assess open positions and to help in salary negotiations. The salary benchmark is not provided directly by the company, which could be significantly higher or lower.