Activez les alertes d’offres d’emploi par e-mail !

Stagiaire Data Scientist - Deep Learning et IA Documentaire H/F

Malakoff Humanis

Les Ulis

Sur place

EUR 80 000 - 100 000

Temps partiel

Il y a 20 jours

Résumé du poste

Une société de gestion d'assurance recherche un Stagiaire Data Scientist pour développer des solutions d'intelligence artificielle autour du traitement de documents numériques. Les candidats doivent être en dernière année d'études supérieures et posséder des compétences en machine learning et en développement Python. Vous travaillerez en équipe et participerez à des projets inspirants dans un environnement agile.

Qualifications

  • Élève-ingénieur ou étudiant en master avec une spécialisation en traitement du signal ou mathématiques appliquées.
  • Connaissance minimale des frameworks du domaine est souhaitée.
  • Capacité à développer des scripts de manière autonome.

Responsabilités

  • Faire une revue de l'état de l'art des modèles pour le Document Understanding.
  • Participer au développement de datasets de références.
  • Optimiser les modèles sélectionnés selon les indicateurs de performances.

Connaissances

Vision par ordinateur
Machine Learning
Deep Learning
Python
Agilité

Formation

Bac +5 en ingénierie, machine learning ou domaine connexe

Outils

Dataiku
OpenCV
TensorFlow
Scikit-Learn
PyTorch
Keras

Description du poste

Stagiaire Data Scientist - Deep Learning et IA Documentaire H/F

Au sein de la direction Innovation Data et Digital (120 personnes, incubateur / accélérateur des projets pour tout le groupe Malakoff Humanis). Vous intégrerez l'équipe IA Documentaire en charge de développer des solutions IA autour du traitement automatique de documents numériques.Malakoff Humanis reçoit de très grands volumes de documents de la part de ces assurés par exemple lors des affiliations ou pour des demandes de remboursement. Ces documents sont de formats et de natures très différents (image, pdf, Word ; facture, devis, pièce d'identité). Ces documents ne sont pas exploitables directement car l'information présente dans ces derniers n'est pas structurée. Il convient donc d'utiliser des systèmes de parsing tels que les OCR pour détecter et extraire leurs contenus. Malheureusement ces systèmes sont très dépendants de la qualité de l'image (image retourné, présence de bruit, mauvais éclairage) et de leur contenu (manuscrit, tapuscrit, présence de tableau, langue du texte).Notre ambition : développer de nouvelles approches d'extraction d'information en se passant d'OCR et en se basant sur des méthodes de Deep Learning tels que les CNN ou les Transformers. Dans cette optique, l'objectif de ce stage sera de développer d'améliorer les solutions déjà existantes pour traiter efficacement les documents numériques que reçoit Malakoff Humanis. Nous avons déjà des réalisations sur ce sujet et les résultats sont prometteurs. Ils ne vont pas sans nouveaux défis et nous vousAu sein du département Data Science et IA, vous rejoignez l'équipe produit IA Documentaire, avec quatre Data Scientists et un Product Manager. Vous interviendrez à différents niveaux du projet :· Faire une revue de l'état de l'art et des modèles les plus performants pour le Document Understanding (Dit, LayoutLM, Donut)· Prendre en main la plateforme dataiku et les outils utilisés en interne pour le développement des projets.· Participer au développement de dataset de références et de vérités terrain (synthétique et/ou réel) qui seront utilisés pour comparer les résultats des différentes approches.· Pour la construction du dataset, il existe différentes stratégies comme l'utilisation de modèle de génération de données synthétiques (eg Stable diffusion pour les images) ou la génération de texte avec les modèles de langages eg ChatGPT).· Prendre en main les modèles sélectionnés, calibrer sur le dataset en explorant différentes stratégies de fine tuning.· Optimiser le meilleur modèle en fonction des indicateurs de performances retenus selon les cas d'usages (temps d'exécution, mémoire occupée, etc).

Date de début

Nous recherchons une personne capable de développer de nouvelles solutions en s'inspirant de méthodes existantes ou qui imaginera de nouveaux algorithmes adaptés.Vous préparez un Bac +5 (ingénieur, master) en vision par ordinateur, machine learning, traitement du signal ou mathématiques appliquées. Vous avez une connaissance minimale de frameworks du domaine (OpenCV, Scikit-Learn, TensorFlow, PyTorch, Keras).Vous développez vos propres scripts en autonomie (idéalement Python). Nous utilisons Dataiku pour le prototypage et la mise en production des premières versions des produits. Nous travaillons en mode agile. Vous êtes créatif et vous souhaitez travailler sur un des défis du moment en machine learning.Vous êtes curieux, vous avez envie d'apprendre. Vous avez du plaisir à utiliser des algos pour tester vos idées. Vous n'avez pas peur d'essayer et vous êtes toujours à la recherche du bon équilibre entre rigueur et exploration. Vous êtes autonome et vous pensez que la partie est plus belle quand on joue avec les autres.

Obtenez votre examen gratuit et confidentiel de votre CV.
ou faites glisser et déposez un fichier PDF, DOC, DOCX, ODT ou PAGES jusqu’à 5 Mo.