Job Search and Career Advice Platform

Activez les alertes d’offres d’emploi par e-mail !

Evaluation de LLM pour l’intégration CRE–expression–réseaux de régulation chez les plantes

SFBI

Montpellier

Sur place

EUR 40 000 - 60 000

Plein temps

Il y a 7 jours
Soyez parmi les premiers à postuler

Générez un CV personnalisé en quelques minutes

Décrochez un entretien et gagnez plus. En savoir plus

Résumé du poste

Une institution de recherche à Montpellier propose un stage en génomique pour développer un pipeline prédisant les associations CREs/CRMs et l'expression génique. Le candidat idéal doit avoir une maîtrise de Python et de solides bases en machine learning/deep learning. Des connaissances en PyTorch, scikit-learn, et un intérêt pour la génomique sont souhaités. Le stage est basé à l’IRD-Occitanie et les candidatures doivent être envoyées par e-mail.

Qualifications

  • Très bonne maîtrise de Python.
  • Bases solides en machine learning / deep learning.
  • Intérêt pour la génomique et les séquences biologiques.

Responsabilités

  • Développer un pipeline pour prédire l'expression génique.
  • Construire un benchmark CREs→expression.
  • Tester plusieurs modèles de machine learning.

Connaissances

Maîtrise de Python
Machine learning
Deep learning
PyTorch
scikit-learn
Git
Linux
Analyse de données
Description du poste
Evaluation de LLM pour l’intégration CRE–expression–réseaux de régulation chez les plantes

LLM Genomique GNN GRN Machine Learning TFBS CRE

1. Contexte

Les éléments cis-régulateurs (CRE), courtes séquences d’ADN non codantes, interagissent avec les facteurs de transcription pour contrôler l’expression des gènes et généralement s’organisent en modules cis-régulateurs (CRM). Comprendre comment les CREs/CRMs contrôlent l’expression génique est un enjeu majeur pour la biologie végétale et la prédiction de phénotypes complexes. En 2025, un premier travail a permis d’évaluer plusieurs modèles de langage ADN (basés sur des LLM) pour la détection de TFBS/CREs dans les génomes d’Arabidopsis et du riz. Le stage 2026 propose d’aller plus loin : établir le lien entre CREs/CRMs, expression spatio-temporelle des gènes et structure des réseaux de régulation (GRN), en s’appuyant sur des modèles IA avancés.

2. Objectifs

Développer un pipeline reproductible permettant de prédire les associations CREs/CRMs→ expression chez Arabidopsis thaliana et Oryza sativa, et d’évaluer l’apport de différents modèles (ML classiques, LLM, GNN ) dans cette tâche. Le stage comprend plusieurs étapes :

  • Construire un benchmark CREs→expression à partir de séries temporelles de données transcriptomiques sur le développement racinaire du riz et d’Arabidopsis (Lavarenne et al. 2020).
  • Annoter les CREs/CRMs, proximaux et distaux (enhancers), en mobilisant les ressources existantes telles que PlantRegMap, JASPAR, PLMDetect et les prédictions du travail de 2025.
  • Tester plusieurs familles de modèles : baselines ML (LR, RF, XGBoost, MLP), embeddings de séquence issus de LLM ADN (AgroNT, BERT-TFBS, Evo2), modèles fine-tunés sur données végétales.
  • Comparer les modèles pour prédire la spécificité tissulaire, la réponse au stress, ou les patrons spatio-temporels d’expression.
  • Option avancée (selon profil et temps) : prototype d’intégration GRN + CRE via un GNN ou Graph Transformer.
3. Programme de travail
  • T1. Revue bibliographique et prise en main des jeux de données.
  • T2. Construction des jeux de données CRE/CRM - gène - expression.
  • T3. Benchmark ML et LLM : extraction d’embeddings, classification/régression, métriques.
  • T4. Fine-tuning ciblé de LLM pour tâches CRE-expression.
  • T5 (optionnel). Intégration du réseau de régulation : prototype GNN / Graph Transformer.
  • T6. Analyse, visualisation, rédaction du rapport et documentation du pipeline.
4. Compétences recherchées
  • Très bonne maîtrise de Python, bases solides en machine learning / deep learning.
  • Connaissances souhaitées : PyTorch, scikit-learn, Git, Linux, analyse de données.
  • Intérêt pour la génomique, les séquences biologiques, les modèles de langage et/ou les graphes.

Procédure : Envoyer un seul PDF (CV + lettre + relevé M1) à : firstname.lastname@ird.fr (Pierre Larmande) et (Mikael Lucas). Stage basé à l’IRD-Occitanie / UMD DIADE, Montpellier

Date limite : 21 janvier 2026

Offre publiée le 25 novembre 2025, affichage jusqu'au 21 janvier 2026

Obtenez votre examen gratuit et confidentiel de votre CV.
ou faites glisser et déposez un fichier PDF, DOC, DOCX, ODT ou PAGES jusqu’à 5 Mo.