
Activez les alertes d’offres d’emploi par e-mail !
Générez un CV personnalisé en quelques minutes
Décrochez un entretien et gagnez plus. En savoir plus
Une institution académique de recherche en France propose un projet de thèse sur la modélisation génétique par des LLMs ADN, visant à établir un lien entre génotype et phénotype. Le candidat idéal possède un Master en physique ou bioinformatique, avec une solide maîtrise de la programmation Python et de PyTorch. Le poste inclut le développement de nouvelles architectures neuronales et l'application à l'analyse de données génomiques. Ce projet représente une avancée significative dans le domaine de la génomique computationnelle.
Comprendre la relation entre génotype et phénotype constitue l'un des défis fondamentaux de la biologie. Modéliser cette relation de manière fiable révolutionnerait la génétique, la médecine et les biotechnologies, ouvrant la voie à une médecine véritablement personnalisée. Ce projet de thèse se situe à l'interface entre la génétique quantitative, la bioinformatique et l'intelligence artificielle moderne, en se concentrant sur l'application des modèles de langage de grande taille (LLMs) spécifiques à l'ADN pour l'interprétation du génome. Les approches classiques d'interprétation du génome reposent sur des caractéristiques grossières au niveau des gènes, comme la charge mutationnelle par gène, ce qui entraîne une perte d'information au niveau nucléotidique. Les travaux antérieurs du Dr Raimondi et de ses collaborateurs ont montré que les réseaux de neurones peuvent apprendre des représentations compactes et informatives à partir des données de séquençage de l'exome ou du génome entier (WES/WGS), mais les contraintes de dimensionnalité ont imposé des simplifications importantes. Le présent projet vise à dépasser ces limites en développant des architectures opérant directement au niveau nucléotidique, intégrant des LLMs préentraînés sur l'ADN comme extracteurs de caractéristiques non supervisés dans des modèles prédictifs de bout en bout. Ces LLMs, entraînés sur des génomes entiers à l'aide d'objectifs auto-supervisés, capturent des dépendances à longue portée et des motifs régulateurs dans les séquences d'ADN. En exploitant leurs représentations latentes, le projet vise à améliorer la prédiction des phénotypes à partir des génotypes bruts. Les modèles seront d'abord développés et testés sur Arabidopsis thaliana, un organisme modèle bien connu, puis étendus à des données humaines pour prédire le risque de maladies, notamment les maladies inflammatoires chroniques de l'intestin (MICI). Contrairement aux approches actuelles des LLMs appliqués à la génomique fonctionnelle (par exemple la prédiction des effets de variants), ce projet explore leur utilisation pour la prédiction génétique directe, de bout en bout — une application innovante dans le domaine de la génomique computationnelle.
Le ou la doctorant·e commencera par le prétraitement et la structuration des données WES/WGS de A. thaliana pour l'apprentissage automatique. Il ou elle étudiera les LLMs pour l'ADN existants, évaluera leurs performances représentationnelles et concevra de nouvelles architectures neuronales avec PyTorch. Le travail comportera à la fois des contributions méthodologiques et théoriques : amélioration de l'encodage du génotype, réduction du surapprentissage dans les données biologiques à très haute dimension, et analyse du transfert des représentations préentraînées entre organismes.
By combining advanced machine learning and genome interpretation, this project contributes to the emerging field of AI-driven genomics, aiming to build generalizable, interpretable, and biologically meaningful models that bridge genotype and phenotype.
Le/la candidat·e idéal·e est titulaire d'un master en physique, informatique, bioinformatique, mathématiques appliquées ou domaine équivalent. Une excellente maîtrise de la programmation en Python et une expérience avec les bibliothèques d'apprentissage profond (de préférence PyTorch) sont indispensables. Une bonne compréhension des fondements de l'apprentissage automatique, de l'algèbre linéaire et de l'optimisation est requise. Une familiarité avec les données génomiques ou la bioinformatique est souhaitable mais non obligatoire. Le/la candidat·e doit faire preuve de rigueur analytique, de capacités de résolution de problèmes et d'autonomie dans la recherche. The ideal candidate holds a Master's degree in physics, computer science, bioinformatics, applied mathematics, or a related field. Strong proficiency in Python programming and experience with deep learning frameworks (preferably PyTorch) are essential. A solid understanding of machine learning fundamentals, linear algebra, and optimization is required. Familiarity with genomic data or bioinformatics is appreciated but not mandatory. The candidate should demonstrate analytical rigor, problem-solving ability, and autonomy in research.
Début de la thèse : 01/02/2026
WEB : https://www.igmm.cnrs.fr/team/ia-pour-linterpretation-du-genome/