Activez les alertes d’offres d’emploi par e-mail !

Chercheur.euse postdoc en informatique TAL

Institut national de l'audiovisuel

Bry-sur-Marne

Sur place

EUR 40 000 - 70 000

Plein temps

Aujourd’hui
Soyez parmi les premiers à postuler

Mulipliez les invitations à des entretiens

Créez un CV sur mesure et personnalisé en fonction du poste pour multiplier vos chances.

Résumé du poste

Un institut de premier plan dans le domaine audiovisuel recherche un postdoctorant spécialisé en traitement automatique des langues. Ce rôle passionnant implique l'analyse de transcriptions audiovisuelles et le développement de modèles de langue pour des projets innovants. Vous aurez l'opportunité de travailler au sein d'une équipe dynamique, d'améliorer les approches numériques et de contribuer à des publications scientifiques. Si vous êtes passionné par l'innovation technologique et la recherche, cette position vous permettra de faire avancer vos compétences tout en ayant un impact significatif sur le domaine des médias et des sciences humaines.

Qualifications

  • Doctorat en informatique requis, spécialité TAL ou machine learning.
  • Expérience en développement informatique et en recherche académique.

Responsabilités

  • Organiser une veille scientifique et effectuer des travaux de recherche.
  • Concevoir et évaluer des outils technologiques innovants.
  • Collaborer avec des acteurs internes et externes.

Connaissances

Apprentissage automatique
Traitement automatique des langues
Développement informatique
Statistiques
Analyse quantitative
Collaboration en projets
Anglais écrit et parlé

Formation

Doctorat en informatique

Outils

Linux
Docker

Description du poste

EPIC créé en 1975, l’INA est chargé de conserver, de valoriser et de transmettre le patrimoine audiovisuel français. Premier centre d’archives numérisées au monde avec plus de 3 millions et demi d’heures de télévision et de radio auxquelles s’ajoutent chaque année 800 000 heures au titre du dépôt légal, l’INA compte environ 1 000 salariés.

Dans une démarche d'innovation tournée vers les usages, l'INA valorise ses contenus pour les partager avec le plus grand nombre : sur et pour le grand public, sur et pour les professionnels, à l'INA thèque pour les chercheurs.

Avec plus de 2 400 documentaires et programmes produits depuis 40 ans, l'INA a acquis une expérience et un savoir-faire uniques dans la construction du récit et le traitement visuel des archives.

L’Institut assure la mise en œuvre des missions de collecte, catalogage, numérisation, conservation physique et numérique à des fins d’exploitation des collections audiovisuelles et issues du web médias. Elle porte également les missions de la Recherche ainsi que le développement et l’exploitation des technologies industrialisées par l’INA.

L’INA concentre également des compétences d’expertise, une vocation d’observatoire des médias, au service de l’excellence et de l’innovation. Enfin, l’Institut est l’un des premiers centres de formation initiale et continue aux métiers de l’audiovisuel et des nouveaux médias et s’affirme comme un laboratoire de recherche et d’expérimentation.

Les travaux menés au sein du service de la Recherche de l’INA visent notamment à améliorer les approches numériques permettant d’extraire, d’indexer, de modéliser, de visualiser et de comprendre des connaissances depuis les fonds audiovisuels conservés par l’institut. Ces méthodes numériques sont principalement utilisées pour aider à la documentation des fonds ainsi que dans des travaux transdisciplinaires pour avoir une meilleure connaissance des médias et de la façon dont ils parlent de la société.

Dans le cadre du projet ANR Pantagruel, l’Institut recrute un postdoc spécialisée en TAL (Traitement automatique des langues). Le cadre des travaux proposé est l’analyse de transcriptions de flux audiovisuels dans le cadre de l’évaluation de LLMs. Il s’agit donc de reprendre et adapter des tâches de NLP / SLU au contexte particulier de ces contenus. Les principales tâches sur lesquelles il / elle sera amené à se pencher sont à déterminer parmiles suivantes : segmentation sémantique, détection d’événements médiatiques, extraction de citations, désambiguïsation d'entités nommées, analyse de sentiments, catégorisation, résumé automatique, détection de propos haineux et RAG. Pour ces tâches, il est prévu de mener de bout en bout la création de corpus (train et eval) avec les équipes de l’INA, le développement du code et l’évaluation sur plusieurs modèles de fondation, dont ceux issu du projet Pantagruel. Un accès à notre cluster de calcul ainsi qu’à AdAstra est prévu.

Activités principales

1 / Organiser une veille scientifique et effectuer des travaux de recherche visant à améliorer l’état de l’art, notamment sur de gros corpus de données issus des collections de l’INA

2 / Concevoir, implémenter, tester, évaluer des outils technologiques innovants dans le cadre des usages existants ou pressentis de l’Institut, notamment ceux définis dans le projet Pantagruel

3 / Collaborer avec l’ensemble des acteurs internes (notamment la tribu IA et le Lab) et externes (partenaires scientifiques)

4 / Rédiger ou participer à la rédaction d’articles scientifiques et présenter ces articles dans des colloques, séminaire ou salons

5 / Participer à la stratégie de recherche et développement du service

6 / Participer à la rédaction des documents liés à l’activité (rapports d’activité, livrables des projets en particulier).

Le profil recherché

Qualifications, diplômes, expérience :

Justifier d'un doctorat en informatique, spécialité : traitement automatique des langues et / ou machine learning, ou parcours professionnel admis en équivalence.

Compétences :

  • Expérience significative dans une ou plusieurs tâches nécessitant d’utiliser des stratégies d’apprentissage automatique appliquées au texte : sentence labeling, traduction automatique, classification de textes, POS tagging, segmentation de textes, résumé automatique, génération de texte, extraction d’entités nommées (NER), systèmes de question / réponses (QA), détection de concepts, apprentissage et adaptation de modèles de langue, modèles de plongement lexicaux
  • Expérience significative en développement informatique, bonne autonomie : architecture logicielle, tests unitaires, design patterns, calcul distribué, profiling CPU et GPU, Linux, Docker
  • Expérience dans la recherche académique et / ou industrielle;
  • Expérience en publications scientifiques
  • Expérience de projets collaboratifs
  • Très bonne maîtrise de l’anglais écrit et parlé
  • Bonne connaissance des méthodes d’analyse quantitative et compétences en statistiques
  • L’implication dans des projets open-source serait un plus
  • Une connaissance des domaines de l’audiovisuel et des médias, des Sciences Humaines et Sociales et des Humanités Numériques serait un plus
  • Esprit d’équipe
  • Ouverture d’esprit, curiosité
  • Sens de l’écoute
  • Sens de la pédagogie
  • Capacité rédactionnelles
  • Esprit d’analyse et de synthèse
  • Force de proposition
Créer une alerte emploi pour cette recherche
Obtenez votre examen gratuit et confidentiel de votre CV.
ou faites glisser et déposez un fichier PDF, DOC, DOCX, ODT ou PAGES jusqu’à 5 Mo.