Aktiviere Job-Benachrichtigungen per E-Mail!

Site Reliability Engineer (m/f/d)

TN Germany

München

Vor Ort

EUR 60.000 - 100.000

Vollzeit

Vor 19 Tagen

Erhöhe deine Chancen auf ein Interview

Erstelle einen auf die Position zugeschnittenen Lebenslauf, um deine Erfolgsquote zu erhöhen.

Zusammenfassung

In dieser spannenden Rolle als Site Reliability Engineer bei einem innovativen Unternehmen gestalten Sie die Infrastruktur für eine führende Streaming-Datenplattform. Sie arbeiten eng mit Softwareentwicklungsteams zusammen, um Lösungen zu entwickeln, die die Leistung optimieren und Sicherheitsanfälligkeiten beheben. Ihre Aufgaben umfassen die Implementierung von Infrastructure as Code mit Terraform, die Verbesserung von CI/CD-Pipelines und die Gewährleistung der Systemzuverlässigkeit durch bewährte SRE-Praktiken. Wenn Sie eine Leidenschaft für Cloud-Technologien und Datenverarbeitung haben, ist dies die perfekte Gelegenheit für Sie, Ihre Fähigkeiten in einem dynamischen Umfeld einzubringen.

Qualifikationen

  • 2+ Jahre Erfahrung mit Kubernetes und Helm-Charts.
  • Erfahrung mit Terraform und Infrastructure as Code (IaC).

Aufgaben

  • Aufbau und Wartung der Infrastruktur für die Unified Streaming Data Platform.
  • Implementierung von SRE-Prinzipien zur Gewährleistung der Systemzuverlässigkeit.

Kenntnisse

Kubernetes
Terraform
Grafana
Prometheus
Linux Systems
Cloud Security

Ausbildung

Bachelor in Computer Science
Bachelor in Information Technology

Tools

AWS
GCP
Azure

Jobbeschreibung

Social network you want to login/join with:

Site Reliability Engineer (m/f/d), Munich

col-narrow-left

Client:
Location:
Job Category:

-

EU work permit required:

Yes

col-narrow-right

Job Reference:

0aaef76fe8cf

Job Views:

1

Posted:

30.04.2025

Expiry Date:

14.06.2025

col-wide

Job Description:

About Ververica

Ververica, founded by the original creators of Apache Flink, empowers businesses to unlock the full potential of real-time data processing and analytics. Our platform provides cutting-edge stream processing and event-driven applications, enabling companies worldwide to build scalable and reliable data-driven solutions.

Role Overview

As a Site Reliability Engineer (SRE) at Ververica, you will design, provision, and maintain the infrastructure for Ververica’s Unified Streaming Data Platform across multiple cloud providers, including AWS, GCP, and Azure. You will collaborate with software engineering teams to develop solutions that enhance feature delivery, optimize performance, and address security vulnerabilities. Your role will involve architectural improvements, implementation ownership, and driving reliability best practices.

Key Responsibilities

  • Build and maintain the infrastructure for Ververica’s Unified Streaming Data Platform across AWS, GCP, and Azure.
  • Design and manage Infrastructure as Code (IaC) using Terraform, ensuring modularity, reusability, and best practices.
  • Implement and enhance observability tooling, including Grafana, Prometheus, logging systems, traces, metrics, dashboards, and alerts.
  • Ensure system reliability through SRE best practices, including defining SLIs, SLOs, and error budgets.
  • Improve infrastructure architecture and engineering efficiency through continuous evaluation and optimization.
  • Enhance CI/CD pipelines to automate development workflows.
  • Monitor, identify, and resolve security vulnerabilities (CVE updates and security enhancements).
  • Contribute to the successful development and launch of new products, features, and services.
  • Periodically participate in on-call rotations to manage incidents in a 24/7 live infrastructure.
  • Maintain and update documentation, including architectural designs and changes.

Requirements

  • Bachelor’s degree in Computer Science, Information Technology, or a related field.
  • Minimum 2 years of hands-on experience with Kubernetes clusters, Helm charts, controllers, and operators.
  • Proficiency in designing and maintaining Terraform code with best practices.
  • Strong knowledge of observability tools and practices, including metrics, logging, and alerting systems.
  • Experience implementing SRE principles such as SLIs, SLOs, and error budgets.
  • Solid understanding of Linux systems and networking in cloud environments.
  • Familiarity with distributed systems or streaming data platforms.
  • Knowledge of cloud-native security best practices.
Hol dir deinen kostenlosen, vertraulichen Lebenslauf-Check.
eine PDF-, DOC-, DOCX-, ODT- oder PAGES-Datei bis zu 5 MB per Drag & Drop ablegen.