Activez les alertes d’offres d’emploi par e-mail !

Doctorant F / H Communications réseau robustes, tolérantes aux pannes et à la volatilité, et ad[...]

INRIA

Talence

Sur place

EUR 40 000 - 60 000

Plein temps

Il y a 23 jours

Résumé du poste

Une entreprise innovante partenaire de l’Inria recherche un doctorant pour étudier les communications réseau dans un cadre de calcul haute performance. Vous contribuerez à des projets de recherche pionniers tout en développant vos compétences techniques auprès d'une équipe dynamique. Les activités incluent la recherche, le développement logiciel et la présentation de résultats, avec des perspectives de carrière enrichissantes.

Prestations

Restauration subventionnée
Transports publics remboursés partiellement
7 semaines de congés annuels + 10 jours de RTT
Possibilité de télétravail
Équipements professionnels à disposition
Formations professionnelles
Sécurité sociale

Qualifications

  • Solide compréhension des communications réseau (sockets, TCP/IP).
  • Maîtrise de la programmation système (C/C++) et d’un langage de haut niveau (Python).
  • Expérience avec les frameworks d’intelligence artificielle (PyTorch, TensorFlow) est un atout.

Responsabilités

  • Mener des recherches originales sur les communications réseau.
  • Développer des logiciels et présenter des résultats lors de conférences.
  • Participer à des écoles de recherche.

Connaissances

Communications réseau
Programmation système
Python
Frameworks d'intelligence artificielle
Systèmes distribués

Description du poste

Le poste s’inscrit dans le cadre d’une collaboration entre l’entreprise Hivenet et l’équipe TOPAL. La personne retenue rejoindra l’équipe TOPAL, basée à Inria Bordeaux.

Chez TOPAL, nous relevons les défis émergents à l’intersection du calcul haute performance (HPC), de la simulation numérique et de l’apprentissage automatique. Alors que les plateformes de calcul deviennent de plus en plus vastes et complexes — avec des millions de cœurs et une diversité de matériels comme les GPU — nous mettons à profit notre expertise de longue date dans les systèmes d’exécution dynamiques pour exploiter au mieux ces ressources. Notre travail permet de s’adapter à des charges de travail imprévisibles et d’optimiser l’ordonnancement des tâches sans s’appuyer sur une planification rigide. Nous étendons aujourd’hui ce savoir-faire à des applications émergentes comme l’entraînement de réseaux de neurones profonds, qui imposent des contraintes particulières en matière de calcul et de mémoire.

Parallèlement, nous répondons à l’urgence de réduire la consommation énergétique et l’empreinte carbone du HPC. Cela implique de repenser les algorithmes, les déplacements de données et l’usage du matériel pour construire des systèmes plus durables. Une priorité pour nous est la gestion efficace des données, car leur déplacement et leur stockage deviennent souvent plus coûteux que le calcul lui-même. En combinant notre expertise en algèbre linéaire, en ordonnancement des ressources et en optimisation algorithmique avec ces nouveaux enjeux, nous contribuons à façonner l’avenir du calcul scientifique sur les plateformes de prochaine génération.

À propos de l’entreprise Hivenet :

Hivenet façonne l’avenir du cloud computing en tirant parti de la capacité de calcul inutilisée pour proposer une alternative décentralisée, écologique et centrée sur l’utilisateur aux services cloud traditionnels.

Mission confiée

Hivenet est une entreprise qui propose aux particuliers comme aux entreprises de mettre à disposition leurs ressources informatiques inutilisées. Hivenet propose ainsi une offre de stockage de données, HiveDisk , qui utilise les espaces de stockage accordés par les contributeurs à HiveDisk. Cela permet aux utilisateurs de HiveDisk de profiter d’un stockage géo-distribué et répliqué. De la même façon, Hivenet souhaite pouvoir partager, via HiveCompute , les ressources de calcul (surtout des GPU) inutilisées pour réaliser principalement des tâches d’entraînement et d’inférence d’applications d’intelligence artificielle.L’utilisateur peut, via une interface web, demander l’allocation d’un certain nombre de GPU répartis sur différentes machines, puis y accéder pour exécuter ses calculs. Dans un premier temps, les GPU alloués seront sur des machines appartenant à un même réseau local (par exemple le réseau d’un site d’entreprise ou un conteneurPoliCloud), mais l’objectif à terme est de pouvoir utiliser des GPU situés sur différents réseaux d’entreprises ou de communautés à différents endroits (par exemple tous les sites d’une entreprise à l’échelle d’un pays) [1].

Ce projet présente de nombreux défis, principalement parce que l’environnement visé diffère des environnements HPC traditionnels.D’un point de vue matériel, les machines sont moins puissantes, hétérogènes, et sont interconnectées par un réseau classique, moins performant et moins fiable qu’un réseau HPC. Il faut également prendre en compte que les ressources de calcul ne sont pas disponibles en permanence (par exemple, les machines sont moins disponibles en journée car les employés les utilisent) et qu’elles sont plus susceptibles de disparaître à tout moment. De plus, utiliser des machines appartenant à différents sites géographiques crée un réseau aux performances hétérogènes : la latence pour communiquer entre deux sites est bien plus élevée qu’au sein d’un même site.

Cette thèse a pour objectif d’explorer les problématiques liées aux communications réseau dans un tel contexte. Pour cela, il sera nécessaire de considérer l’ensemble des bibliothèques de communication existantes (telles que PCCL[3], MPI [2] ou Dans un second temps, on envisagera la gestion de l’occupation du réseau dans le cas où HiveDisk et HiveCompute sont présents simultanément sur les mêmes réseaux et les mêmes machines, afin de conserver des performances satisfaisantes pour les deux services et d’adapter dynamiquement les paramètres de qualité de service en fonction des conditions du réseau et des exigences des utilisateurs.

Principales activités

Le doctorant mènera des recherches originales sur le sujet décrit ci-dessus et collaborera avec les membres de l’équipe TOPAL ainsi qu’avec les partenaires de Hivenet.

Les activités incluent, sans s’y limiter : une synthèse bibliographique, des travaux de recherche, des développements logiciels, la présentation des résultats lors de conférences, la participation à des écoles de recherche, etc.

Compétences

Compétences techniques et niveau requis :

Solide compréhension des communications réseau (sockets, TCP / IP) ;

Maîtrise de la programmation système (C / C++) et d’un langage de haut niveau (Python) ;

Une expérience avec les frameworks d’intelligence artificielle (PyTorch, TensorFlow, ...) et la mesure de performance logicielle est un atout ;

Un intérêt pour les systèmes distribués et le calcul haute performance (HPC) est également un plus.

Bonnes compétences en communication en anglais (le français est un plus).

Compétences relationnelles :

Capacité à travailler en collaboration dans un environnement mêlant recherche académique et secteur industriel.

  • Restauration subventionnée
  • Transports publics remboursés partiellement
  • Congés : 7 semaines de congés annuels + 10 jours de RTT (base temps plein) + possibilité d'autorisations d'absence exceptionnelle (ex : enfants malades, déménagement)
  • Possibilité de télétravail et aménagement du temps de travail
  • Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
  • Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d'Inria)
  • Accès à la formation professionnelle
  • Sécurité sociale

Rémunération

La rémunération sera de 2200€ brut par mois, puis 2300€ brut par mois à compter de 2026.

Créer une alerte emploi pour cette recherche
Obtenez votre examen gratuit et confidentiel de votre CV.
ou faites glisser et déposez un fichier PDF, DOC, DOCX, ODT ou PAGES jusqu’à 5 Mo.