Job Search and Career Advice Platform

Activez les alertes d’offres d’emploi par e-mail !

Assistant de recherche H/F

Sciences Po

Marlenheim

Sur place

EUR 35 000 - 45 000

Plein temps

Aujourd’hui
Soyez parmi les premiers à postuler

Générez un CV personnalisé en quelques minutes

Décrochez un entretien et gagnez plus. En savoir plus

Résumé du poste

Une institution académique prestigieuse en France cherche un Data Scientist pour rejoindre son équipe. Le candidat participera à un projet sur la curation de métadonnées via NLP. Les responsabilités incluent la création de protocoles automatisés et la visualisation des données. Une maîtrise en science des données est requise, ainsi que des compétences en Python et en méthodes de traitement de données. Les candidats débutants sont les bienvenus.

Qualifications

  • Expérience en NLP, connaissance des modèles comme BERT est un plus.
  • Débutants acceptés.
  • Intérêt pour les sciences sociales ou les données d’enquête est un atout.

Responsabilités

  • Développer un protocole de curation automatique de métadonnées.
  • Analyser les métadonnées et proposer des règles d’harmonisation.
  • Créer des visualisations de l’information pour représenter les liens entre métadonnées.

Connaissances

Traitement automatique du langage naturel
Travail collaboratif
Gestion de versions (Git, GitLab)
Visualisation de données avec Python
Modélisation de données
Sensibilité aux standards de métadonnées
Communication en français (C1)
Communication en anglais (B2)

Formation

Bac+5 en science des données, humanités numériques, informatique

Outils

Python
Pandas
spaCy
scikit-learn
networkx
Description du poste

Unité mixte fondée par Sciences Po et le CNRS en 2005, le Centre de données socio-politiques (CDSP) est l'un des principaux centres français de production et de gestion de données pour les sciences sociales. Il remplit des missions essentielles de documentation, de mise à disposition et de production d'enquêtes et de données de recherche. Fort d'une équipe d'environ vingt ingénieur·es spécialisé·es, le CDSP propose une offre de services complète à la communauté scientifique : collecte, traitement, diffusion des données, développement de solutions numériques. Il contribue également à la recherche méthodologique, tant qualitative que quantitative.

Le ou la Data Scientist recruté.e fera partie de l'équipe Documentation du CDSP et sera placé.e sous la responsabilité hiérarchique de la coordinatrice du WorkPackage 3 du projet FAIRwithDDI. Il ou elle travaillera en lien avec les membres de l’équipe projet en charge de la réalisation de ce WorkPackage et avec la responsable du projet FAIRwDDI et de l'équipe Documentation.

Description de la mission

Le ou la Data Scientist recruté·e interviendra dans le cadre du troisième volet du projet ANR FAIRwDDI : Upscaling metadata using AI. L'objectif est de concevoir un protocole automatisé de curation de métadonnées reposant sur des techniques de traitement automatique du langage naturel (NLP) et d'apprentissage machine, en vue d'améliorer l'interopérabilité des données d'enquête en sciences humaines et sociales (SHS). Ce travail s'inscrit également dans le développement de l'outil ReQuest, conçu pour explorer et comparer des questions d'enquêtes en SHS. Le protocole élaboré dans le cadre de FAIRwDDI y sera intégré pour enrichir les possibilités de navigation. Les missions s'articuleront également avec les travaux du projet ONTOLISST, dans une démarche commune visant à favoriser l'harmonisation et l'interopérabilité des métadonnées en SHS.

  • Développer un protocole de curation automatisée de métadonnées XML DDI basé sur le NLP et/ou l’apprentissage machine.
  • Réaliser une analyse de l’état des métadonnées du CDSP et des partenaires (FSD, INSERM), identifier les écarts, et proposer des règles d’harmonisation.
  • Contribuer à la modélisation, méta-modélisation et appariement de schémas de métadonnées du CDSP et des partenaires.
  • Concevoir et implémenter des règles semi-automatiques de correspondance entre structures de données.
  • Produire des visualisations de l’information (ex. : graphe de connaissances) pour représenter les liens entre métadonnées.
  • Participer à l’intégration du protocole dans l’outil ReQuest, en collaboration avec les membres de l’équipe Projets numériques du CDSP.
  • Documenter les méthodes et procédures mises en place dans une logique de transparence et de réutilisabilité.
  • Présenter les résultats en français et en anglais dans des événements scientifiques, ateliers et réunions de projets.
Compétences techniques & métier
  • Expérience en traitement automatique du langage naturel (NLP), la maîtrise des modèles de référence comme BERT et ses dérivés serait un atout.
  • Maîtrise des outils de gestion de versions (Git, GitLab) pour le travail collaboratif.
  • Maîtrise des outils de traitement et de visualisation de données avec Python (Pandas, spaCy, scikit-learn, networkx).
  • Connaissances en modélisation de données, interopérabilité ou appariement de schémas.
  • Sensibilité aux standards et formats de métadonnées (ex. : DDI, RDF, XML).
  • Capacité de communication écrite et orale en français (C1) et en anglais (B2).
Savoirs comportementaux & qualifications
  • Autonomie, rigueur et esprit d’équipe dans un environnement collaboratif.
  • Bac+5 (Master, école d’ingénieur ou équivalent) en science des données, humanités numériques, informatique, ou disciplines connexes.
  • Débutants acceptés.
  • Un intérêt pour les sciences sociales ou les données d’enquête est un atout.
Exigences de niveau d’études

Master ou MBA.

Niveau d’expérience minimum requis

Inférieur à 2 ans.

Procédure de recrutement

Un CV et une lettre de motivation sont obligatoires pour que la candidature soit valide et recevable.

Les entretiens auront lieu avec Lucie Marie (Cheffe de projet Données, Responsable du WP3 de FAIRwDDI), Alina Danciu (Responsable de l’équipe Documentation‑Diffusion) et Mahendra Paipuri (Responsable de l’équipe Projets Numériques).

Obtenez votre examen gratuit et confidentiel de votre CV.
ou faites glisser et déposez un fichier PDF, DOC, DOCX, ODT ou PAGES jusqu’à 5 Mo.