
Activez les alertes d’offres d’emploi par e-mail !
Générez un CV personnalisé en quelques minutes
Décrochez un entretien et gagnez plus. En savoir plus
Un établissement d’enseignement supérieur et de recherche en Île-de-France recherche un(e) enseignant-chercheur(e) en modèles multimodaux d’IA génératives pour l’audio. Ce poste nécessite un doctorat et une maîtrise de l'anglais. Les missions incluent la conception d’enseignements et la recherche. Les compétences recherchées incluent l’IA générative, la modélisation audio et l’apprentissage multimodal. Des avantages tels que le télétravail et une bonne flexibilité de l’organisation du travail sont offerts.
Télécom Paris, centre international pluridisciplinaire de formation, recherche et innovation, est une référence dans le monde du numérique.
Nous recherchons uneenseignante-chercheuse ou un enseignant-chercheur en modèles multimodaux d’IA génératives pour l’audio. Vous rejoindrez le groupe de recherche ADASP/Audio au sein de l’équipe Signal, Statistic and Learning (S2A).
Le nombre de défis méthodologiques soulevés par l’application des approches de type IA générative au domaine de l’audio (parole, musique, sons environnementaux) est considérable. Si les avancées des dernières années se sont largement appuyées sur des modèles de reconnaissance de formes et sur des techniques d’optimisation pour passer à l’échelle, l’émergence des modèles génératifs – qu’ils soient basés sur les modèles de diffusion (score/flow matching) ou les approches auto-régressives – ouvre aujourd’hui de nouvelles perspectives, tout en posant des questions scientifiques fondamentales.
L’extrême complexité et diversité des données audio (parole multilingue, signaux musicaux riches et variés, environnements sonores complexes, données biaisées ou bruitées) combinées aux exigences croissantes de ces applications (interprétabilité, fiabilité, robustesse, équité, génération en temps quasi-réel, contrôle du style ou du contenu généré, etc.) nécessitent de repenser les cadres méthodologiques et théoriques. Ces enjeux prennent une dimension supplémentaire avec le développement de la génération multimodale, où l’audio est produit à partir de modalités hétérogènes (e.g. texte vers audio, image vers audio, voire vidéo vers audio), sensorielles (brain to audio) ou issues de capteurs biologiques (sudation, ECG,..). Ces scénarios soulèvent de nouveaux verrous scientifiques, tant sur le plan de la modélisation (alignement inter-modal, représentation conjointe, contrôle de la génération) que sur celui des usages (qualité perceptive, cohérence sémiotique, acceptabilité).
Pour réussir dans ce rôle, vous détenez un doctorat et vous maîtrisez l'anglais.
Le poste est ouvert à tous les candidats travaillant dans le domaine de recherche de l’apprentissage automatique, une expertise dans les domaines suivants sera appréciée :
Envoyez votre dossier complet avant le 15 mars 2026 :
Nos recrutements sont fondés sur les compétences, sans distinction d’origine, d’âge, d'identité de genre et d’orientation sexuelle et tous nos postes sont ouverts aux personnes en situation de handicap.