
Activez les alertes d’offres d’emploi par e-mail !
Une entreprise de télécommunications recherche un stagiaire en traitement du signal. Le candidat idéal est en Master 2 ou en école d’ingénieur, avec une forte appétence pour l'audio et une maîtrise de Python. Les responsabilités incluent l'exploration des performances de séparation de sources et la réalisation de tests. Un bon niveau d'anglais est nécessaire.
Orange a contribué au standard 3GPP IVAS (Immersive Voice and Audio Services) [1] qui inaugure la capacité d’un codec conversationnel à adresser des services immersifs. Ce codec est basé sur des techniques de traitement du signal classique, sans réseau de neurones.
Ces dernières années, les approches neuronales appliquées au codage audio mono-canal ont fait des progrès énormes en termes de rapport qualité-débit (SoundStream de Google, récemment supplanté par la solution d’Audio Descript [2]).
Il reste à développer des modèles efficaces de codage audio neuronal incluant la dimension spatiale, nécessitant plusieurs canaux.
Les codecs multicanaux classiques se basent souvent sur une étape de séparation de sources avant d’appliquer un codec-coeur mono à chaque source. On explore une approche qui pousse possiblement plus loin la séparation [3] pour tirer profit des performances des nouveaux codecs mono en se permettant d’en multiplier les instances. On étudie aussi la question de coder séparément la réverbération. Pour cette tâche non triviale, il peut être bénéfique d’inclure la déréverbération dans la tâche de séparation de sources [4]. Des performances de cette étape dépendent la qualité du codage des flux mono intermédiaires, ainsi que de possibles artefacts à l’étape finale de reformation du flux multicanal.
Le stage a vocation à explorer le lien entre performance de séparation de sources et qualité de codage avec comme objectifs:
Le travail de stage (6 mois) se déroulera selon le calendrier suivant :
Références
[1] DRAFT TS 26.253 (Codec for Immersive Voice and Audio Services; Detailed Algorithmic Description incl. RTP payload format and SDP parameter definitions)
[2] Rithesh Kumar, Prem Seetharaman, Alejandro Luebs, Ishaan Kumar, and Kundan Kumar. High-Fidelity Audio Compression with Improved RVQGAN, October 2023. arXiv:2306.06546.
[3] Hëb‑Umbach, R., Nakatani, T., Delcroix, M., Boeddeker, C., & Ochiai, T. (2025). Microphone Array Signal Processing and Deep Learning for Speech Enhancement: Combining model-based and data-driven approaches to parameter estimation and filtering. IEEE Signal Processing Magazine, 41(6), 12-23.
[4] Nakatani, T., Boeddeker, C., Kinoshita, K., Ikeshita, R., Delcroix, M., & Haeb‑Umbach, R. (2020). Jointly optimal denoising, dereverberation, and source separation. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 28, 2267-2282.
Formation souhaitée
Pré-requis techniques
Aptitudes personnelles