Job Search and Career Advice Platform

Activez les alertes d’offres d’emploi par e-mail !

Approches multimodales et explicables pour la classification des genres éditoriaux audiovisuels

Efrei Research Lab, Paris Panthéon-Assas Université

Île-de-France

Sur place

EUR 60 000 - 80 000

Plein temps

Aujourd’hui
Soyez parmi les premiers à postuler

Générez un CV personnalisé en quelques minutes

Décrochez un entretien et gagnez plus. En savoir plus

Résumé du poste

Un laboratoire de recherche à Paris recrute un doctorant pour développer une approche d'intelligence artificielle multimodale afin de classifier les genres éditoriaux en vidéos d’actualité politique. Le candidat devra réaliser des travaux en collaboration avec des experts du domaine et s’inscrire dans le projet ANR STREAMedia, visant à améliorer la compréhension sémantique des contenus multimédias. Une expérience en IA, multimodalité et méthodes de recherche est essentielle dans ce rôle passionnant.

Qualifications

  • Appropriation des concepts de genres éditoriaux.
  • État de l'art sur les méthodes multimodales de classification.
  • Modélisation des genres éditoriaux sous forme de graphe de connaissances.
  • Caractérisation automatique des éléments structurels.
  • Conception d’un modèle IA multimodal et explicable.

Responsabilités

  • Développer une approche d'intelligence artificielle multimodale.
  • Tester des hypothèses sur la caractérisation des contenus politiques.
  • Collaborer avec des partenaires de recherche pour l'intégration des données.
Description du poste

Topic description

Contexte des travaux de recherche

Le travail mené dans le cadre de ce doctorat s’effectuera au sein du projet ANR STREAMedia . Le consortium pluridisciplinaire est constitué de chercheurs en sciences humaines et sociales (Carism, Cerlis, Irméccen) et en informatique (EFREI Research Lab, IDHN, ICube, INA), Le projet STREAMedia vise de proposer un modèle IA multimodal efficace de caractérisation et d’identification des genres des vidéos d’émissions d’actualité politique, issues à la fois des plateformes numériques et de la télévision afin de tester l’hypothèse d’informalisation des contenus politiques . Ce modèle IA multimodal basé sur l’apprentissage profond () traitera à la fois les métadonnées, les données textuelles et les données du flux audio et vidéo. Au-delà de la caractérisation structurelle des genres, STREAMédia vise à développer des modèles IA pour détecter des caractéristiques plus complexes telles que l’humour ou l’expression de la subjectivité, qui ont été analysés comme des formes d’informalisation.

Sujet de thèse

Cette thèse s’inscrit dans le cadre du projet ANR STREAMédia et vise à développer une approche d’intelligence artificielle multimodale et explicable pour la classification multi-label des genres éditoriaux.

La caractérisation automatique des éléments structurels des genres éditoriaux vise à identifier et analyser de manière objective l'organisation interne de ces contenus médiatiques. Le peu de travaux de caractérisation automatique des éléments structurels des genres éditoriaux se sont concentrés principalement sur le talk-show. Certains n'ont traité qu'un seul élément structurel, comme la reconnaissance des locuteurs via des approches d’apprentissage automatique classiques [1], tandis que d'autres ont adopté une approche multimodale en combinant des caractéristiques audiovisuelles et une grammaire de base [2]. Par ailleurs, les méthodes de vision par ordinateur, telles que la reconnaissance d’actions, de dialogues, de personnes, de scènes ou encore la segmentation en plans, ont connu un progrès significatif [3-6]. Cependant, elles n’ont pas été spécifiquement appliquées à la caractérisation des genres, en grande partie en raison de l’absence d’une ontologie complète pour représenter et modéliser ces contenus de manière exhaustive.

L'absence d'un cadre ontologique structuré freine la compréhension et la gestion des contenus multimédias en limitant la capacité des modèles IA à saisir les relations sémantiques et structurelles entre les entités présentes dans ces contenus. Bien que des ontologies pour le contenu multimédia aient été développées, telles qu’EBUCore dans le cadre du projet MeMAD [7], ces initiatives restent fragmentaires, appliquées à la transcription du texte, et ne sont pas adaptées aux spécificités des genres éditoriaux et ne tiennent pas compte des informations fournies par les différentes modalités. Ainsi, pour la caractérisation des genres éditoriaux, on notera : i) Une absence de modélisation traduisant la richesse sémantique des contenus multimédias, les versions actuelles peinent à capturer pleinement les interactions complexes entre texte, audio et vidéo. ii) Un manque de représentation explicite des éléments structurels propres aux genres éditoriaux, tels que l’organisation d’un débat, la structure narrative d’un reportage ou la segmentation d’un bulletin d’informations,; iii) Des contraintes d’interopérabilité et d’alignement des vocabulaires entre différentes sources, ce qui complique l’analyse croisée de grands corpus multimédias.

La classification des genres éditoriaux du traitement médiatique de l’actualité politique soulève des défis majeurs liés à la multimodalité des contenus (vidéo, audio, texte). La nature hétérogène et riche des données multimodales impose des méthodes adaptées à chaque modalité : l'extraction et l'analyse d’images et vidéos (descripteurs classiques comme SIFT ou approches profondes via CNN), l’étude des signaux audio (extraction d’attributs classiques comme l’énergie ou le taux de passage par zéro, ou encore l’utilisation de CNN et Transformers), et le traitement du texte (TF-IDF, Word2Vec, LSTM, et Transformers). Chaque domaine mobilise des approches distinctes, rendant complexe une analyse unifiée. Les travaux existants sur la multimodalité s’appuient généralement sur une extraction indépendante des caractéristiques pour chaque modalité, suivie d’une fusion des données sans réelle prise en compte de leur complémentarité [8,9,10]. Cela limite la capacité à appréhender la sémantique globale du contenu. En effet, les différentes modalités d’un même contenu sont souvent complémentaires et peuvent renforcer l’interprétation d’une information [12, 11]. Par exemple, dans le cadre des genres éditoriaux en actualité politique, l’analyse seule du texte d’un discours peut ne pas suffire pour identifier son format (reportage, débat) ou son ton (neutre, polémique). L’intégration d’indices visuels (présence d’un présentateur, d’un public, bandeaux-titres) et audio (musique, intonation des voix) est essentielle pour une classification plus fine et pertinente [13].

La fusion des différentes modalités constitue ainsi un enjeu technique central. Plusieurs approches existent, de la concaténation précoce des caractéristiques à la fusion tardive des décisions des classifieurs. Le choix d’une approche de fusion dépend du type de données et des relations entre les modalités. Actuellement, la fusion tardive est privilégiée, car elle permet un traitement spécifique à chaque modalité avant l’intégration finale des résultats [10,11,1]. Cependant, la nature asynchrone des flux multimodaux accentue la difficulté d’intégration. Les flux vidéo et audio peuvent présenter des décalages temporels, et l’alignement exact entre segments textuels et instants précis de la vidéo reste une problématique complexe [14]. Les approches unimodales montrent ainsi leurs limites, soulignant l’importance de développer des méthodes robustes capables d’aligner et d’exploiter efficacement ces flux hétérogènes [7].

L’explicabilité des modèles constitue un enjeu majeur dans ce projet de thèse, car elle est indispensable à la validation experte des classifications. Les approches classiques utilisées pour l’identification des genres éditoriaux (SVM, K-means, MLP, CNN [1, 11, 13]) restent limitées en termes d’interprétabilité. Les modèles récents, notamment ceux basés sur les Transformers, offrent un potentiel intéressant grâce à leurs mécanismes d’attention, capables de mettre en évidence les segments du signal (texte, audio, vidéo) qui contribuent aux prédictions. Toutefois, ces mécanismes ne reflètent pas nécessairement la causalité réelle des décisions et ne garantissent donc qu’une interprétabilité partielle.

Dans ce cadre, le doctorant sera amené à réaliser les tâches suivantes et, pour certaines, en lien avec les partenaires du projet :

  • Appropriation des concepts de genres éditoriaux
  • Un état de l’art approfondi sur les méthodes multimodales de classification (texte, audio, vidéo, métadonnées) et sur la caractérisation du rythme, du montage et des éléments structurels des vidéos (segments, transitions, rubriques).
  • Modélisation des genres éditoriaux sous forme de graphe de connaissances, à partir de la grammaire définie par les partenaires SHS, afin de représenter leurs relations, caractéristiques structurelles et discursives.
  • Caractérisation automatique des éléments structurels (séquençage, transitions, plans, rubriques) en s’appuyant sur des benchmarks et sur des briques logicielles existantes ou adaptées.
  • Conception d’un modèle IA multimodal et explicable intégrant des caractéristiques issues des modalités textuelles, audio-visuelles et structurelles, afin de permettre la classification multi-label des vidéos en genres éditoriaux, tout en offrant des explications interprétables des décisions algorithmiques.
Références

[1] V. Félicien, «Structuration automatique de talk shows télévisés», phdthesis, Télécom ParisTech, . Consulté le : 8 octobre . [En ligne]. Disponible sur :

[2] S. Daudpota, A. Muhammad, et J. Baber, «Video genre identification using clustering-based shot detection algorithm», Signal, Image and Video Processing, vol. 13, oct. , doi : 10. / s 3

[3] M. Dimiccoli et H. Wendt, «Learning Event Representations for Temporal Segmentation of Image Sequences by Dynamic Graph Embedding», IEEE Transactions on Image Processing, vol. 30, p. ‑, , doi : 10. / TIP..

[4] K. Xiao, Z. Qian, et B. Qin, «A Survey of Data Representation for Multi-Modality Event Detection and Evolution», Applied Sciences, vol. 12, no 4, Art. no 4, janv. , doi : 10. / app.

[5] R. Mounir, R. Gula, J. Theuerkauf, et S. Sarkar, «Spatio-Temporal Event Segmentation for Wildlife Extended Videos», , p. 48‑59. doi : 10. / -3 9_5

[6] R. Friji, F. Chaieb, H. Drira, et S. Kurtek, «Geometric Deep Neural Network Using Rigid and Non-Rigid Transformations for Landmark-Based Human Behavior Analysis», IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 45, no 11, p. ‑, nov. , doi : 10. / TPAMI..

[7] Aidan Hogan, Eva Blomqvist, Michael Cochez, Claudia D’amato, Gerard De Melo, Claudio Gutierrez, Sabrina Kirrane, José Emilio Labra Gayo, Roberto Navigli, Sebastian Neumaier, Axel-Cyrille Ngonga Ngomo, Axel Polleres, Sabbir M. Rashid, Anisa Rula, Lukas Schmelzeisen, Juan Sequeda, Steffen Staab, and Antoine Zimmermann. . Knowledge Graphs. ACM Comput. Surv. 54, 4, Article 71 (May ), 37 pages.

[8] Xiaorui Yang, Qian Zhou, Wei Chen, and Lei Zhao. . MFMGC : A Multi-modal Data Fusion Model forMovie Genre Classification. In Advanced Data Mining and Applications : 19th International Conference, ADMA , Shenyang, China, August 21–23, , Proceedings, Part II. Springer-Verlag, Berlin, Heidelberg, –.

[9] Isaac Rodríguez Bribiesca, Adrián Pastor López Monroy, and Manuel Montes-y-Gómez. .[10] I. Mironică, B. Ionescu, P. Knees and P. Lambert, "An in-depth evaluation of multimodal video genre categorization," 11th International Workshop on Content-Based Multimedia Indexing (CBMI), Veszprem, Hungary, , pp. 11-16, doi : 10. / CBMI...

[11] Rafael B. Mangolin, Rodolfo M. Pereira, Alceu S. Britto, Carlos N. Silla, Valéria D. Feltrim, Diego Bertolini, and Yandre M. G. Costa. . A multimodal approach for multi-label movie genre classification. Multimedia Tools Appl. 81, 14 (Jun ), –.

[12] Bouyahi, Mohamed and Yassine Ben Ayed. “Video Scenes Segmentation Based on Multimodal Genre Prediction.” International Conference on Knowledge-Based Intelligent Information & Engineering Systems .

[13] J. Wang, L. Duan, Q. Liu, H. Lu and J. S. Jin, "A Multimodal Scheme for Program Segmentation and Representation in Broadcast Video Streams," inIEEE Transactions on Multimedia, vol. 10, no. 3, pp. -, April , doi : 10. / TMM... }.

[14] Hazim Kemal Ekenel, Tomas Semela, and Rainer Stiefelhagen. . Content-based video genre classification using multiple cues. In Proceedings of the 3rd international workshop on Automated information extraction in media production (AIEMPro '10). Association for Computing Machinery, New York, NY, USA, 21–26.

[15] H, F. Z., Guzel, M. S., Bostanci, E., Acici, K., & Asuroglu, T. . Multilabel Genre Prediction Using Deep-Learning Frameworks.Applied Sciences,13, . [16] Ilaria Tiddi, Stefan Schlobach, Knowledge graphs as tools for explainable machine learning : A survey, Artificial Intelligence, Volume , ,

Funding category

Public funding alone (i.e. government, region, European, international organization research grant)

Funding further details

Projet ANR STREAMedia

Obtenez votre examen gratuit et confidentiel de votre CV.
ou faites glisser et déposez un fichier PDF, DOC, DOCX, ODT ou PAGES jusqu’à 5 Mo.