Activez les alertes d’offres d’emploi par e-mail !
Mulipliez les invitations à des entretiens
Créez un CV sur mesure et personnalisé en fonction du poste pour multiplier vos chances.
INRIA recherche un doctorant pour travailler sur un projet innovant en traitement de l’audio, axé sur le profilage vocal explicable. Le candidat idéal aura un Master 2 en informatique ou un domaine connexe, avec des compétences en apprentissage automatique et deep learning. Ce poste offre une rémunération compétitive et des avantages sociaux, y compris des congés annuels généreux et la possibilité de télétravail.
Inria Défense&Sécurité (Inria D&S) a été créé en 2020 pour fédérer les actions d’Inria répondant aux besoins numériques des forces armées et forces de l’intérieur. La thèse sera réalisée au sein de l’équipe de recherche en traitement de l’audio de Inria D&S, sous la direction de Jean-François Bonastre et co-encadrée par Raphaël Duroselle.
La thèse s’inscrit dans un projet visant au profilage vocal explicable et frugal. Le profilage vocal consiste à extraire des informations d’un enregistrement audio comme l’identité, la langue parlée, l’âge, l’origine géographique et ethnique, ou encore des marques socio / patho / physiologiques dans la voix. L’objectif de ce projet est d’apporter une explicabilité aux systèmes de profilage vocal sans perte de performance. L’explicabilité permet de conserver les opérateurs au centre du processus, en leur donnant les moyens d’une décision instruite.
Mission confiée
L’approche envisagée pour la thèse repose sur la définition d’un jeu d’attributs vocaux génériques partagés par des groupes individus. Seule la présence ou l’absence d’un attribut dans un extrait vocal donné est utilisée pour prendre la décision, menant à une représentation binaire. Cette approche a été introduite pour la tâche de vérification du locuteur [1,2].
La thèse proposée vise à développer cette méthodologie en l’abordant selon l’objectif d’analyse de la langue parlée [3]. Le système vise à regrouper ensemble les segments relevant de la même langue et de détecter si celle-ci fait partie d’un panel de langues connues ou s’il s’agit d’une langue inconnue. Dans ce dernier cas, la proximité avec les langues connues devra être explicitement proposée, sur la base des attributs connus par le système.
Depuis l’apparition des modèles iVector [4] (initialement pour la reconnaissance du locuteur) dans la détection de la langue, le schéma général a peu évolué dans ce domaine. Il s’agit toujours de proposer un extracteur appris sur une grande masse de données et capable de représenter une séquence acoustique de durée quelconque par un vecteur de taille fixe, concentrant la variabilité utile à la tâche visée. Ensuite des classifieurs 1 : 1, comparant deux langues, ou 1 : N, comparant N langues sont construits et un système de prise de décision, dit «back-end», se base sur ces classifieurs pour répondre aux diverses tâches visées. Les réseaux de neurones, comme les «bottleneck features» ont permis d’intégrer très bas (proche du niveau acoustique) des éléments de plus haut niveau, allant jusqu’aux modèles de langage, apportant un gain très significatif [5]. Puis les embeddings issus de modèles neuronaux, dit «xVector», ont remplacé les iVector et permis à la fois d’augmenter la taille des modèles (et la performance) et de simplifier l’apprentissage, avec un procédé unique réalisant la transformation d’une séquence acoustique de taille variable en un vecteur signifiant de taille contenue [6].
Plus récemment, l’usage des modèles pré-appris comme WavLM [7] ou MMS [8] a été étudié [9]. Par leur généricité, ces modèles permettent des gains intéressants, surtout quand peu de données sont disponibles dans la base d’entraînement pour certaines langues, au prix d’un accroissement important de la complexité en termes de nombres de paramètres.
Ces approches partagent des limitations communes : elles sont peu capables d’expliquer leur décision, les performances se dégradent très significativement quand le contexte d’utilisation s’éloigne du contexte d’apprentissage, les performances sont très variables suivant les couples de langues ou dialectes considérés, elles gèrent mal le déséquilibre entre les quantités de données d’apprentissage disponibles par langue et elles sont lourdes à adapter / réapprendre. Enfin, elles ne proposent rien ou peu dans le cas de langues inconnues.
Dans ce projet, nous proposons de partir de l’état de l’art puis d’adapter l’approche par attribut de voix au contexte de la détection de la langue parlée. Dans cette adaptation, une langue peut être représentée par un vecteur binaire correspondant à la présence / absence d’attributs dans cette langue ou par un vecteur scalaire, indiquant la fréquence des attributs dans la langue. Les attributs eux-mêmes peuvent intégrer des informations de plus haut niveau, comme les niveaux phonotactiques et linguistiques). Cette architecture offre la possibilité de reconnaître une langue inconnue (au sens qu’aucune donnée correspondant à cette langue n’est présente dans la base d’apprentissage) et de situer sa proximité avec les langues connues en termes d’attributs explicites, permettant d’exploiter des connaissances en géolinguistique, par exemple. Un modèle de langue peut ainsi être construit dès le premier exemple de cette langue disponible, puis être adapté sans coût de calcul à chaque arrivée d’un exemple complémentaire. Si nécessaire, l’extracteur d’attributs peut être adapté en ajoutant un ou plusieurs attributs à partir des nouvelles données, sans nécessité de manière obligatoire de réapprendre la totalité du modèle. Les gains espérés sont donc importants, au niveau de l’explicabilité, du traitement des langues inconnues et de l’adaptation au contexte.
Exploiter l’approche pour le regroupement en langues de documents audio, même quand tout ou partie des langues sont inconnues du système, incluant donc la découverte et la caractérisation de langues inconnues.
Principales activités
Travail sur l’explicabilité post-hoc de modèles de reconnaissance de la langue.
Compétences
Compétences et connaissances souhaitées :
Références
Rémunération
Année 1 & 2 = 2082 € bruts mensuels
Année 3 = 2190 € bruts mensuels