Activez les alertes d’offres d’emploi par e-mail !
Une entreprise innovante partenaire de l’Inria recherche un doctorant pour étudier les communications réseau dans un cadre de calcul haute performance. Vous contribuerez à des projets de recherche pionniers tout en développant vos compétences techniques auprès d'une équipe dynamique. Les activités incluent la recherche, le développement logiciel et la présentation de résultats, avec des perspectives de carrière enrichissantes.
Le poste s’inscrit dans le cadre d’une collaboration entre l’entreprise Hivenet et l’équipe TOPAL. La personne retenue rejoindra l’équipe TOPAL, basée à Inria Bordeaux.
Chez TOPAL, nous relevons les défis émergents à l’intersection du calcul haute performance (HPC), de la simulation numérique et de l’apprentissage automatique. Alors que les plateformes de calcul deviennent de plus en plus vastes et complexes — avec des millions de cœurs et une diversité de matériels comme les GPU — nous mettons à profit notre expertise de longue date dans les systèmes d’exécution dynamiques pour exploiter au mieux ces ressources. Notre travail permet de s’adapter à des charges de travail imprévisibles et d’optimiser l’ordonnancement des tâches sans s’appuyer sur une planification rigide. Nous étendons aujourd’hui ce savoir-faire à des applications émergentes comme l’entraînement de réseaux de neurones profonds, qui imposent des contraintes particulières en matière de calcul et de mémoire.
Parallèlement, nous répondons à l’urgence de réduire la consommation énergétique et l’empreinte carbone du HPC. Cela implique de repenser les algorithmes, les déplacements de données et l’usage du matériel pour construire des systèmes plus durables. Une priorité pour nous est la gestion efficace des données, car leur déplacement et leur stockage deviennent souvent plus coûteux que le calcul lui-même. En combinant notre expertise en algèbre linéaire, en ordonnancement des ressources et en optimisation algorithmique avec ces nouveaux enjeux, nous contribuons à façonner l’avenir du calcul scientifique sur les plateformes de prochaine génération.
À propos de l’entreprise Hivenet :
Hivenet façonne l’avenir du cloud computing en tirant parti de la capacité de calcul inutilisée pour proposer une alternative décentralisée, écologique et centrée sur l’utilisateur aux services cloud traditionnels.
Mission confiée
Hivenet est une entreprise qui propose aux particuliers comme aux entreprises de mettre à disposition leurs ressources informatiques inutilisées. Hivenet propose ainsi une offre de stockage de données, HiveDisk , qui utilise les espaces de stockage accordés par les contributeurs à HiveDisk. Cela permet aux utilisateurs de HiveDisk de profiter d’un stockage géo-distribué et répliqué. De la même façon, Hivenet souhaite pouvoir partager, via HiveCompute , les ressources de calcul (surtout des GPU) inutilisées pour réaliser principalement des tâches d’entraînement et d’inférence d’applications d’intelligence artificielle.L’utilisateur peut, via une interface web, demander l’allocation d’un certain nombre de GPU répartis sur différentes machines, puis y accéder pour exécuter ses calculs. Dans un premier temps, les GPU alloués seront sur des machines appartenant à un même réseau local (par exemple le réseau d’un site d’entreprise ou un conteneurPoliCloud), mais l’objectif à terme est de pouvoir utiliser des GPU situés sur différents réseaux d’entreprises ou de communautés à différents endroits (par exemple tous les sites d’une entreprise à l’échelle d’un pays) [1].
Ce projet présente de nombreux défis, principalement parce que l’environnement visé diffère des environnements HPC traditionnels.D’un point de vue matériel, les machines sont moins puissantes, hétérogènes, et sont interconnectées par un réseau classique, moins performant et moins fiable qu’un réseau HPC. Il faut également prendre en compte que les ressources de calcul ne sont pas disponibles en permanence (par exemple, les machines sont moins disponibles en journée car les employés les utilisent) et qu’elles sont plus susceptibles de disparaître à tout moment. De plus, utiliser des machines appartenant à différents sites géographiques crée un réseau aux performances hétérogènes : la latence pour communiquer entre deux sites est bien plus élevée qu’au sein d’un même site.
Cette thèse a pour objectif d’explorer les problématiques liées aux communications réseau dans un tel contexte. Pour cela, il sera nécessaire de considérer l’ensemble des bibliothèques de communication existantes (telles que PCCL[3], MPI [2] ou Dans un second temps, on envisagera la gestion de l’occupation du réseau dans le cas où HiveDisk et HiveCompute sont présents simultanément sur les mêmes réseaux et les mêmes machines, afin de conserver des performances satisfaisantes pour les deux services et d’adapter dynamiquement les paramètres de qualité de service en fonction des conditions du réseau et des exigences des utilisateurs.
Principales activités
Le doctorant mènera des recherches originales sur le sujet décrit ci-dessus et collaborera avec les membres de l’équipe TOPAL ainsi qu’avec les partenaires de Hivenet.
Les activités incluent, sans s’y limiter : une synthèse bibliographique, des travaux de recherche, des développements logiciels, la présentation des résultats lors de conférences, la participation à des écoles de recherche, etc.
Compétences
Compétences techniques et niveau requis :
Solide compréhension des communications réseau (sockets, TCP / IP) ;
Maîtrise de la programmation système (C / C++) et d’un langage de haut niveau (Python) ;
Une expérience avec les frameworks d’intelligence artificielle (PyTorch, TensorFlow, ...) et la mesure de performance logicielle est un atout ;
Un intérêt pour les systèmes distribués et le calcul haute performance (HPC) est également un plus.
Bonnes compétences en communication en anglais (le français est un plus).
Compétences relationnelles :
Capacité à travailler en collaboration dans un environnement mêlant recherche académique et secteur industriel.
Rémunération
La rémunération sera de 2200€ brut par mois, puis 2300€ brut par mois à compter de 2026.