Activez les alertes d’offres d’emploi par e-mail !

Consultant Data Vision-Langage & Extraction de Connaissance H / F

Inetum

Nantes

Sur place

EUR 40 000 - 60 000

Plein temps

Aujourd’hui
Soyez parmi les premiers à postuler

Générez un CV personnalisé en quelques minutes

Décrochez un entretien et gagnez plus. En savoir plus

Résumé du poste

Une entreprise de consultance recherche un(e) Consultant(e) Data Vision-Langage pour travailler sur un projet stratégique de management des connaissances. Vous serez responsable de l'extraction et de la structuration des données à partir de documents non structurés, en utilisant des outils variés tels que PDFMiner et Tesseract. Ce poste nécessite des compétences en nettoyage de données et en scripting Python, ainsi qu'une bonne compréhension des modèles Vision-Langage.

Qualifications

  • Maîtrise des outils d'extraction de texte.
  • Expérience en traitement de documents non structurés.
  • Connaissance des techniques d'OCR.

Responsabilités

  • Extraire du texte depuis des fichiers non structurés.
  • Nettoyer et normaliser les contenus.
  • Concevoir un format pivot standardisé.
  • Enrichir les unités avec des métadonnées.
  • Concevoir un format pivot standardisé.
  • Documenter le format et les choix de structuration.
  • Collaborer avec l'équipe KM.
  • Mettre en place un pipeline automatisé.

Connaissances

Extraction de texte
Nettoyage de données
Techniques d'OCR
Modèles Vision-Langage
Scripting en Python
Bonnes compétences en scripting
Connaissance de Domino Data Lab

Outils

PDFMiner
Apache Tika
BeautifulSoup
Tesseract
Domino Data Lab
Description du poste

Dans le cadre d'un programme d'accélération de l'Intelligence Artificielle mené par un grand acteur du secteur bancaire nous recherchons un(e) Consultant(e) Data Vision-Langage & Extraction de Connaissance pour intervenir sur un chantier stratégique de Knowledge Management (KM).

L'objectif est de construire une base de connaissance à partir de documents non structurés (PDF, Word, HTML), afin de formaliser la connaissance de manière agnostique et réutilisable à long terme.

Vos missions :

  • Extraire du texte depuis des fichiers PDF, Word, HTML via des librairies adaptées
  • Nettoyer et normaliser les contenus (suppression de bruit, OCR si nécessaire)
  • Segmenter les textes en unités de connaissance structurées (sections, blocs)
  • Enrichir les unités avec des métadonnées (source, date, thème, typologie)
  • Concevoir un format pivot standardisé (Markdown enrichi ou JSON)
  • Documenter le format et les choix de structuration
  • Collaborer avec l'équipe KM pour affiner les modèles de structuration
  • Mettre en place un pipeline automatisé et réutilisable pour traiter de nouveaux documents
Compétences techniques requises :
  • Maîtrise des outils et librairies d'extraction de texte (PDFMiner, Apache Tika, BeautifulSoup, etc.)
  • Expérience en traitement de documents non structurés et en nettoyage de données textuelles
  • Connaissance des techniques d'OCR (Tesseract ou équivalent)
  • Compréhension des modèles Vision-Langage (VLM) et de leur application à la structuration de contenu
  • Capacité à concevoir des formats de données structurés (JSON, Markdown enrichi)
  • Bonnes compétences en scripting (Python, etc.) pour automatiser les traitements
  • Connaissance de Domino Data Lab appréciée
Obtenez votre examen gratuit et confidentiel de votre CV.
ou faites glisser et déposez un fichier PDF, DOC, DOCX, ODT ou PAGES jusqu’à 5 Mo.