Activez les alertes d’offres d’emploi par e-mail !

Stage - Conception d'un détecteur sémantique d'activité vocale pour des voicebot plus intellige[...]

Orange SA

Cesson-Sévigné

Sur place

EUR 40 000 - 60 000

Plein temps

Aujourd’hui
Soyez parmi les premiers à postuler

Résumé du poste

Une entreprise de telecom propose un stage en France, pour un étudiant de Master en data science. Le stage porte sur la détection d'activité vocale, avec un focus sur le développement d'un modèle sémantique. Compétences requises incluent Python, PyTorch et une bonne maîtrise de l'environnement Linux.

Qualifications

  • Étudiant(e) en Master ou école d’ingénieur, spécialisé(e) en data science ou apprentissage automatique.
  • Connaissances solides en intelligence artificielle.
  • Autonomie et capacité à travailler en équipe.

Responsabilités

  • Étudier et développer des solutions alternatives à la VAD basée sur des seuils.
  • Développer un modèle de VAD sémantique pour prédire la présence de parole.
  • Mesurer les performances et la latence du modèle.

Connaissances

Connaissances en intelligence artificielle
Programmation en Python
Utilisation de PyTorch
Maîtrise de l’environnement Linux
Expérience en traitement de la parole/audiovisuel

Formation

Étudiant en Master ou école d’ingénieur

Outils

Docker
Outils de versioning (git)
Description du poste
about the role

Les applications de chat vocal (comme Gemini, gpt4o-realtime, Moshi) sont une révolution des interactions homme-machine, promettant une discussion fluide en langage naturel et permettant de répondre à un nombre important de cas d’usage.
Néanmoins, il existe encore des freins à l’adoption de telles approches. En particulier, il est essentiel de déterminer avec précision le moment où l’utilisateur a terminé de parler afin de générer une réponse adaptée et réactive. La détection d’activité vocale (VAD) traditionnelle [1] repose sur des modèles qui identifient simplement si l’utilisateur parle ou non, en utilisant un seuil d'énergie et un délai de silence fixe après la fin de la parole. Cependant, cette approche présente des limites, notamment en présence de longues pauses ou d’intonations variées, qui peuvent entraîner des erreurs de détection.

L’objectif de ce stage est d’étudier et de développer des solutions alternatives à la VAD basée seuils et délais de silence fixes, en particulier la VAD sémantique [2]. Cette dernière a pour promesse d’améliorer la précision de la détection de la fin de la parole en prenant en compte le contenu linguistique et l’intonation d’un énoncé.

Le stage débutera par une prise en main des solutions existantes, avec une analyse du fonctionnement des systèmes Speech2Speech [3,4] et une évaluation des limites de la VAD basée seuils et délais fixes. Ensuite, une revue de l’état de l’art sera réalisée pour identifier les méthodes innovantes et les approches récentes en matière de VAD, de Speech2Speech et de VAD sémantique. Par la suite, des métriques pertinentes seront définies afin de mesurer la performance, la latence et la gestion des interruptions, pouvant conduire à l’enrichissement de bases de données existantes.

Enfin, le stagiaire développera puis entraînera un modèle de VAD sémantique capable de prédire non seulement la présence de parole, mais aussi la probabilité que l’utilisateur ait terminé de parler. Ce modèle sera intégré dans notre solution interne de Speech2Speech, et une évaluation comparative sera menée pour mesurer l’impact de cette nouvelle approche sur la précision, la réactivité et la fluidité du système.

Références scientifiques:

[1] Graf, S., Herbig, T., Buck, M., & Schmidt, G. (2015). Features for voice activity detection: a comparative analysis. EURASIP Journal on Advances in Signal Processing, 2015(1), 91.

[2] Shi, M., Shu, Y., Zuo, L., Chen, Q., Zhang, S., Zhang, J., & Dai, L. R. (2023). Semantic VAD: Low-Latency Voice Activity Detection for Speech Interaction. In Proc. Interspeech 2023 (pp. 5047-5051).

[3] Chen, Q., Chen, Y., Chen, Y., Chen, M., Chen, Y., Deng, C., ... & Zhou, J. (2025). Minmo: A multimodal large language model for seamless voice interaction. arXiv preprint arXiv:2501.

[4] Défossez, A., Mazaré, L., Orsini, M., Royer, A., Pérez, P., Jégou, H., ... & Zeghidour, N. (2024). Moshi: a speech-text foundation model for real-time dialogue. arXiv preprint arXiv:2410.00037.

about you

Ce stage s’adresse à un(e) étudiant(e) en Master ou école d’ingénieur, spécialisé(e) en data science, apprentissage automatique ou intelligence artificielle.

  • Vos hard skills
    Connaissances en intelligence artificielle, notamment en deep learning.
    Programmation en Python, PyTorch
    Bonne maîtrise de l’environnement Linux et des outils de versioning (git), docker
    Expérienceen traitement de la parole / audio
  • Vos soft skills
    Nous recherchons une personne curieuse, capable de travailler en autonomie tout en s’intégrant efficacement au sein d’une équipe pluridisciplinaire. La rigueur scientifique, l’esprit d’analyse et la capacité à relever des défis techniques complexes sont également essentiels pour réussir dans ce stage.
Obtenez votre examen gratuit et confidentiel de votre CV.
ou faites glisser et déposez un fichier PDF, DOC, DOCX, ODT ou PAGES jusqu’à 5 Mo.