Enable job alerts via email!

Professionnel Senior de la Fiabilité des Sites / Senior Site Reliability Professional

Cerence

Montreal

On-site

CAD 80,000 - 110,000

Full time

18 days ago

Boost your interview chances

Create a job specific, tailored resume for higher success rate.

Job summary

Une entreprise innovante recherche un spécialiste en fiabilité des services cloud pour construire et maintenir des solutions IA. Ce rôle crucial implique la gestion de la performance des services et la visualisation des métriques pour assurer une expérience client optimale. Vous collaborerez avec des équipes de développement pour améliorer continuellement les processus et fournir une assistance technique de premier ordre dans un environnement dynamique.

Qualifications

  • 3 ans d’expérience en services de plateforme cloud (Azure, AWS, Google).
  • Compétence en au moins deux langages de programmation (Python, Ruby, etc.).
  • Compréhension des architectures de haute disponibilité.

Responsibilities

  • Garantie du respect des SLA de 99,95%.
  • Diagnostiquer et résoudre les problèmes en production.
  • Développer des tableaux de bord de métriques.

Skills

Compétences interpersonnelles
Maîtrise des langages de script
Utilisation de Kubernetes/Docker
Expérience UNIX/LINUX
Gestion de métriques

Tools

Git
Artifactory
Prometheus
Grafana

Job description

A Moving Experience.

Description de Poste

Une opportunité fantastique pour plonger dans le monde des technologies automobiles de pointe en IA et en cloud !

Offrez une satisfaction client inégalée en construisant et en soutenant nos solutions évolutives d’IA vocales, gestuelles et de suivi du regard dans le cloud public. Exploitez les outils et technologies les plus récents pour fournir le meilleur avec rapidité !

Ce poste exige votre niveau d’excellence : une maîtrise technique des applications cloud natives de nouvelle génération. Au quotidien, vous travaillerez avec le cloud public, l’orchestration de services, les pipelines Git, la visualisation des métriques et les systèmes d’alerte.

Responsabilités

  • Garantir le respect des accords de niveau de service client (SLA) de 99,95 %
  • Diagnostiquer, atténuer et résoudre les problèmes en production
  • Diriger ou participer à des analyses de causes profondes
  • Diriger ou participer à des post-mortems sans recherche de fautes
  • Identifier les processus à améliorer
  • Développer des visualisations de métriques :
    • Tableaux de bord SLI/SLO
    • Tableaux de bord d’escalade
    • Tableaux de bord d’alerte

Compétences requises

  • Excellentes compétences interpersonnelles et rédactionnelles
  • Expérience dans au moins deux langages de script ou de programmation pertinents (Go, Ruby, Perl, Python, Shell, etc.)
  • Expérience avec des frameworks de gestion dynamique des ressources (Kubernetes/Docker)
  • 3 ans d’expérience avec des services de plateforme cloud (Azure AKS, AWS EKS, Google GKE ou équivalents)
  • 2 ans d’expérience avec Artifactory et GitLab
  • Compréhension de base des architectures de haute disponibilité, redondance et basculement
  • Solide expérience avec les serveurs UNIX/LINUX, y compris en configuration système, dépannage et débogage des performances
  • Compréhension des couches réseau (couche 4/couche 7)
  • Connaissance des technologies DNS, SSH, HTTP/S et SSL

Compétences souhaitées

  • Motivation, rigueur et sens de l’organisation
  • 1 an d’expérience dans un environnement de production de services distribués
  • 2 ans d’expérience avec des pipelines de déploiement CI/CD
  • Expérience avec PromQL, visualisations Grafana, moteur de métriques Prometheus
  • Compréhension des processus, pipelines et meilleures pratiques CI/CD
  • Connaissance des outils de gestion des tickets ITSM tels que Jira

Fantastic opportunity to dive deep into the world of cutting-edge automotive AI and cloud technologies!

Drive Unparalleled Customer Satisfaction, Build and support our evolutionary voice, gesture and gaze AI solutions in the public cloud. Leverage the latest in tooling and technologies to deliver the best at velocity!

This role requires your A-Game: Technical proficiency in next generation cloud native applications. Day to day, you’ll be working with Public Cloud, Service Orchestration, Git Pipelines, Metrics Visualizations, and Alerting.

Responsibilities

Support Customer Service Level Agreements of 99.95%

  • Troubleshoot, mitigate, resolve live production issues.
  • Lead/Participate in root cause analysis.
  • Lead/Participate in blameless Post-mortem.
  • Target processes for improvement.

Develop Metrics Visualizations

  • SLI/SLO dashboards.
  • Escalation dashboards.
  • Alert dashboards.

Build, support and execute automation pipelines

  • SRE Automation.
  • Service deployments/rollbacks.
  • Interrogatory.

Engage with development teams

  • Lead/Participate Service Reliability consulting.
  • Lead/Participate Production Readiness Reviews.

Required Skills

  • Strong interpersonal skills and writing skills required for this opportunity.
  • Experience in at least two relevant scripting or programming languages (Go, Ruby, Perl, Python, Shell, etc.).
  • Experience with dynamic resource management frameworks (Kubernetes/Docker).
  • 3 years' experience working with cloud platform services (such as Azure AKS, AWS EKS, Google GKE or similar).
  • 2 years' experience using Artifactory and GitLab.
  • Basic understanding of high availability service implementations for redundancy and failover.
  • Strong UNIX/LINUX server experience, including expertise in system configuration, troubleshooting, performance debugging.
  • Understanding of network layers (layer 4/layer7).
  • Understanding of technologies DNS, SSH, HTTP/S, and SSL.

Preferred Skills

  • Motivation, dedication and organization.
  • 1 Year working in a distributed service production operations environment.
  • 2 Year working with CI/CD deployment pipelines.
  • Experience with PromQL, Grafana Visualizations. Prometheus Metrics Engine.
  • Understanding of CICD processes, pipelines and best practices.
  • Knowledge of ITSM ticketing tools such as Jira.

Cerence Inc. (Nasdaq: CRNC and www.cerence.com ) is the global industry leader in creating unique, moving experiences for the automotive world. Spun out from Nuance in October 2019, Cerence is a new, independent company that has quickly gained traction as a leader in the automotive voice assistant space, working with all of the world’s leading automakers – from Ford and Fiat Chrysler to Daimler, Audi and BMW to Geely and SAIC – to transform how a car feels, responds and learns. Its track record is built on more than 20 years of industry experience and leadership and more than 500 million cars on the road today across more than 70 languages.

AsCerencelooks to the future and continues an ambitious growth agenda,we need someonetojointheteam and help build the future of voice and AI in cars. This is an exciting opportunity to joinCerence’spassionate, dedicated, global team and be a part of meaningful innovation in a rapidly growing industry.

Get your free, confidential resume review.
or drag and drop a PDF, DOC, DOCX, ODT, or PAGES file up to 5MB.