DevOps + MLOps Engineer | NVIDIA GPUs Infrastruktur | Kubernetes | Kong | max. 95€ all in (m/w/d)

Nur für registrierte Mitglieder
Düsseldorf
Jobbeschreibung

Westhouse ist eines der führenden internationalen Recruitment Unternehmen für die Vermittlung von hochqualifizierten Fachexperten in Bereichen wie IT Life Cycle, SAP, Engineering, Kaufmännischem und Fachberatung.

Für unseren Kunden suchen wir aktuell eine/n

DevOps + MLOps Engineer | NVIDIA GPUs Infrastruktur | Kubernetes | Kong | max. 95€ all in (m/w/d) - Düsseldorf (20%) | Remote (80%)

Rahmeninformationen

  • Referenz: 175746
  • Start: 2025-11-01
  • Dauer: bis 30.10.2026
  • Standort: Düsseldorf (20%) | Remote (80%)
  • Arbeitsumfang: full-time
  • Sprachen: Deutsch

Ihre Qualifikationen

  • Must Have: NVIDIA GPUs Infrastruktur (CUDA, CuDNN, Multi-GPU Scheduling); API-Manager (z.B. Kong); Model Serving (z.B. Triton Inference Server); Kubernetes
  • Wünschenswert: Service Mesh (z.B. Istio); API-Security (Rate-Limiting, Audit Logging); Model Monitoring (Grafana); Workflow-Orchestrierung (z.B. MLFlow); Betrieb (Keycloak, cert-manager)

Ihre Aufgaben

  • Aufbau und Optimierung einer skalierbaren NVIDIA GPU-Infrastruktur inklusive CUDA- und CuDNN-Konfiguration sowie Multi-GPU Scheduling für parallele KI-Workloads.
  • Implementierung und Verwaltung eines API-Managers (z. B. Kong) zur zentralen Steuerung und Absicherung von Microservice-Schnittstellen.
  • Einrichtung eines Model Serving Frameworks (z. B. Triton Inference Server) zur performanten Bereitstellung und Versionierung von KI-Modellen.
  • Containerisierung und Orchestrierung von KI-Services mit Kubernetes, inklusive Deployment-Strategien, Skalierung und Cluster-Monitoring.
  • Integration eines Service Mesh (z. B. Istio) zur Umsetzung von Traffic Management, Service Discovery und Zero-Trust-Kommunikation.
  • Implementierung von API-Security-Mechanismen wie Rate-Limiting, Authentifizierung, Autorisierung und Audit Logging.
  • Aufbau eines Model-Monitoring-Systems mit Grafana und Prometheus zur Überwachung von Modellleistung und Systemmetriken.
  • Einführung einer Workflow-Orchestrierungslösung (z. B. MLFlow) zur Verwaltung von Trainings-, Validierungs- und Deployment-Pipelines.
  • Administration von Betriebskomponenten wie Keycloak (Identity & Access Management) und cert-manager (TLS-Zertifikatsverwaltung) zur Sicherstellung des produktiven Betriebs.

Interessiert?

Wir freuen uns auf Ihre aussagekräftigen Bewerbungsunterlagen in elektronischer Form.

Ihre Ansprechpartner

Jesse Lüder
P: +49-40-3176773921
E: j.lueder@westhouse-consulting.com