Activez les alertes d’offres d’emploi par e-mail !

Consultant Data Vision-Langage & Extraction de Connaissance H / F

Inetum

Nantes

Sur place

EUR 40 000 - 60 000

Plein temps

Aujourd’hui

Soyez parmi les premiers à postuler

Générez un CV personnalisé en quelques minutes

Décrochez un entretien et gagnez plus. En savoir plus

Résumé du poste

Une entreprise de consultance recherche un(e) Consultant(e) Data Vision-Langage pour travailler sur un projet stratégique de management des connaissances. Vous serez responsable de l'extraction et de la structuration des données à partir de documents non structurés, en utilisant des outils variés tels que PDFMiner et Tesseract. Ce poste nécessite des compétences en nettoyage de données et en scripting Python, ainsi qu'une bonne compréhension des modèles Vision-Langage.

Qualifications

Maîtrise des outils d'extraction de texte.
Expérience en traitement de documents non structurés.
Connaissance des techniques d'OCR.

Responsabilités

Extraire du texte depuis des fichiers non structurés.
Nettoyer et normaliser les contenus.
Concevoir un format pivot standardisé.
Enrichir les unités avec des métadonnées.
Concevoir un format pivot standardisé.
Documenter le format et les choix de structuration.
Collaborer avec l'équipe KM.
Mettre en place un pipeline automatisé.

Connaissances

Extraction de texte

Nettoyage de données

Techniques d'OCR

Modèles Vision-Langage

Scripting en Python

Bonnes compétences en scripting

Connaissance de Domino Data Lab

Outils

PDFMiner

Apache Tika

BeautifulSoup

Tesseract

Domino Data Lab

Dans le cadre d'un programme d'accélération de l'Intelligence Artificielle mené par un grand acteur du secteur bancaire nous recherchons un(e) Consultant(e) Data Vision-Langage & Extraction de Connaissance pour intervenir sur un chantier stratégique de Knowledge Management (KM).

L'objectif est de construire une base de connaissance à partir de documents non structurés (PDF, Word, HTML), afin de formaliser la connaissance de manière agnostique et réutilisable à long terme.

Vos missions :

Extraire du texte depuis des fichiers PDF, Word, HTML via des librairies adaptées
Nettoyer et normaliser les contenus (suppression de bruit, OCR si nécessaire)
Segmenter les textes en unités de connaissance structurées (sections, blocs)
Enrichir les unités avec des métadonnées (source, date, thème, typologie)
Concevoir un format pivot standardisé (Markdown enrichi ou JSON)
Documenter le format et les choix de structuration
Collaborer avec l'équipe KM pour affiner les modèles de structuration
Mettre en place un pipeline automatisé et réutilisable pour traiter de nouveaux documents

Compétences techniques requises :

Maîtrise des outils et librairies d'extraction de texte (PDFMiner, Apache Tika, BeautifulSoup, etc.)
Expérience en traitement de documents non structurés et en nettoyage de données textuelles
Connaissance des techniques d'OCR (Tesseract ou équivalent)
Compréhension des modèles Vision-Langage (VLM) et de leur application à la structuration de contenu
Capacité à concevoir des formats de données structurés (JSON, Markdown enrichi)
Bonnes compétences en scripting (Python, etc.) pour automatiser les traitements
Connaissance de Domino Data Lab appréciée

Obtenez votre examen gratuit et confidentiel de votre CV.

ou faites glisser et déposez un fichier PDF, DOC, DOCX, ODT ou PAGES jusqu’à 5 Mo.

Noté « Excellent » sur la base de 18 956 évaluations