Activez les alertes d’offres d’emploi par e-mail !
Une entreprise technologique en Bretagne recherche un étudiant en dernière année de Master pour travailler sur des projets relatifs à l’analyse translingue des langues africaines. Le candidat idéal a une spécialisation en NLP et une expertise en apprentissage profond. Vous serez impliqué dans le développement de technologies d’interaction vocale adaptées aux contextes multilingues, en collaboration avec une équipe pluridisciplinaire.
Vous travaillerez à conduire les premières expériences relatives à l’analyse translingue de langues africaines, à des fins de développement de technologies d’interaction vocale.
En Afrique, le multilinguisme concerne la majorité des pays et les locuteurs sont généralement plurilingues : ils s’expriment couramment dans plusieurs langues, très généralement à l’oral. Pourtant, les produits et services proposés par Orange (comme par quasiment tous les équipementiers et opérateurs de services) ne sont aujourd’hui pas adaptés aux populations africaines : alors que les clients ne s’expriment très majoritairement qu’à l’oral, ces services ne sont utilisables qu’à l’écrit et ne permettent d’interagir que dans une seule langue, souvent mal maîtrisée par une bonne partie des populations. Ce contexte crée un climat d’insécurité linguistique et de clivage face aux nouvelles technologies.
Désormais, les enjeux sont de réduire la fracture numérique et de créer des produits et services utilisables par tous. Orange se donne aujourd’hui pour vocation de dialoguer naturellement avec ses clients en créant des services d’interaction de type « bot », adaptés à chacun. En contexte subsaharien, l’illettrisme invalide l’usage de l’écrit et impose l’usage de la parole : il s’agit donc de construire des solutions d’interaction par la parole, localisées dans les langues en usage dans les régions de déploiement.
Le premier composant nécessaire au développement des systèmes interactionnels est le système de reconnaissance automatique de la parole (ASR). Les dernières architectures à base de Transformers ont permis de progresser sur la reconnaissance automatique des langues africaines. Néanmoins, les modèles actuellement disponibles en ligne sont bien loin de fournir les performances atteintes par les grands modèles de l’anglais ou du français. La qualité des transcriptions produites par la machine est de ce fait fortement impactée, ce qui entraîne un manque de fiabilité envers les corpus massifs qui pourraient être créés. Aussi, bien que prometteuses, ces architectures sont difficiles à mettre en œuvre pour les langues africaines car elles sont extrêmement gourmandes en données et en capacité de calcul. Or, la disponibilité de données locales et pertinentes pour les tâches que l’on veut résoudre est limitée, tout comme les infrastructures nécessaires à l’apprentissage et à l’inférence.
Il s’agira alors de trouver une solution efficiente, grâce à la mutualisation des données vocales en langues africaines dont dispose Orange, afin de construire un système intermédiaire multilingue qui sera optimisé pour être utilisé en entrée de ses systèmes monolingues.
Références :
Vous êtes actuellement en dernière année de Master ou en école d’ingénieur (Bac+5), avec une spécialisation en Traitement Automatique du Langage (NLP), idéalement orientée vers la voix ou l’audio
Vous avez de bonnes connaissances en apprentissage profond, avec une compréhension des architectures, algorithmes et méthodes nécessaires pour entraîner des modèles de parole multilingues.
Vous possédez une appétence pour la linguistique générale, avec un intérêt particulier pour au moins une composante comme la phonétique, la morphologie, le lexique, la syntaxe ou la sémantique.
Vous êtes à l’aise avec le langage Python et avez déjà utilisé des outils ou frameworks d’apprentissage profond dans le cadre de vos projets ou formations.
Vous avez une première compréhension du pipeline d’apprentissage des modèles de reconnaissance automatique de la parole, depuis les enregistrements audios jusqu’à la production de systèmes.
Vous êtes curieux(se) et motivé(e) pour analyser et comparer des données vocales issues de plusieurs langues, en explorant des techniques d’analyse translingue pour optimiser les apprentissages.
Vous avez une capacité à travailler de manière autonome tout en collaborant efficacement avec une équipe pluridisciplinaire.
Vous faites preuve d’un bon sens du partage et de la communication, ce qui vous permettra de contribuer pleinement aux projets collectifs.
Enfin, votre rigueur et votre esprit d’analyse vous aideront à interpréter les résultats de manière pertinente et à orienter les développements futurs.