Job Search and Career Advice Platform

Ativa os alertas de emprego por e-mail!

SRE - Site Reliability Engineering

Stefanini Group

Pinheiros

Híbrido

BRL 160.000 - 200.000

Tempo integral

Há 2 dias
Torna-te num dos primeiros candidatos

Cria um currículo personalizado em poucos minutos

Consegue uma entrevista e ganha mais. Sabe mais

Resumo da oferta

Uma empresa de tecnologia em São Paulo busca um Site Reliability Engineer (SRE) para elevar a confiabilidade e a observabilidade dos sistemas em produção. O profissional será responsável por resolver incidentes, otimizar operações e garantir segurança na nuvem. É necessário conhecimento em AWS, Kubernetes, PostgreSQL e CI/CD. Além disso, a empresa oferece um ambiente híbrido, com benefícios como assistência médica e vale-alimentação.

Serviços

Vale-alimentação ou vale-refeição
Desconto em cursos
Assistência médica
Clube de vantagens para pets

Qualificações

  • Domínio técnico profundo nas plataformas utilizadas pela equipe.
  • Conhecimento em Cloud Providers (AWS, GCP).
  • Experiência em CI/CD e monitoramento.

Responsabilidades

  • Elevar a confiabilidade e observabilidade dos sistemas.
  • Identificar falhas recorrentes em produção.
  • Apoiar na gestão de bancos de dados em produção.

Conhecimentos

AWS
Kubernetes
PostgreSQL
Grafana
Node.js
RabbitMQ

Ferramentas

Terraform
Nginx
Descrição da oferta de emprego
Descrição da vaga

Na Stefanini, acreditamos no poder da colaboração. Co-criamos soluções inovadoras em parceria com nossos clientes, combinando tecnologia de ponta, inteligência artificial e a criatividade humana. Estamos na vanguarda da resolução de problemas de negócios, proporcionando impacto real em escala global.

Ao se juntar à Stefanini, você se torna parte de uma jornada global de transformação. Estamos empenhados em criar impacto positivo não apenas nos negócios, mas também na vida de nossos colaboradores. Se você procura uma oportunidade de crescimento profissional em uma empresa que valoriza inovação, respeito, autonomia e parceria, você encontra aqui!

Junte-se a nós e seja parte da mudança!

Modelo de trabalho - Atuação em modelo híbrido, na região do Butantã

Responsabilidades e atribuições

O que esperamos que você realize:

Visão Geral da Posição

Foco em elevar o nível de confiabilidade, observabilidade e resiliência dos sistemas já operados pela equipe atual de DevOps.

Hoje, a equipe já executa todas as rotinas essenciais de operação, infraestrutura e suporte a produção, porém de forma reativa ou distribuída e com foco em manter e suportar os times.

O papel de SRE surge para estruturar, padronizar, medir risco e transformar operação em engenharia.

Objetivo do Cargo

Garantir que sistemas em produção sejam:

  • Confiáveis
  • Disponíveis
  • Observáveis
  • Escaláveis
  • Financeiramente sustentáveis

Tudo isso usando engenharia, automação e métricas claras, a partir das atividades que a equipe já executa hoje.

Responsabilidades (Baseadas no que a equipe já faz hoje)

Observabilidade e Produção

  • Evoluir monitoramento atual para visão de negócio e continuidade
  • Identificar falhas recorrentes em produção
  • Atuar na análise e resolução de incidentes
  • Criar e manter runbooks operacionais

Incidentes e Pós-Incidente

  • Liderar e documentar post-mortems
  • Identificar causas raiz (RCA)
  • Propor melhorias estruturais para evitar recorrência
  • Trabalhar sem cultura de culpa (blameless)

Confiabilidade de Bancos de Dados

  • Apoiar a gestão de bancos de dados em produção
  • Analisar gargalos e riscos operacionais
  • Trabalhar junto aos times para melhorias de performance
  • Análise de query, índices e configurações. Criação de migration nos projetos para aplicar mudanças no ambiente

Cloud, Segurança e Estabilidade

  • Atuar na segurança da cloud com foco em disponibilidade
  • Avaliar riscos de configuração e arquitetura
  • Trabalhar com DevOps na evolução da plataforma
  • Apoiar decisões arquiteturais com foco em resiliência

Capacidade, Custos e FinOps

  • Relacionar custo x confiabilidade x capacidade
  • Sugerir melhorias para uso eficiente de recursos

Releases e Pipelines (Interface com DevOps)

  • Atuar junto ao time de DevOps em releases críticos
  • Avaliar riscos de deploy em produção
  • Apoiar estratégias de rollback e mitigação
  • Ajudar na correção de falhas de pipeline quando impactam produção
Requisitos e qualificações

O que precisamos que você tenha de conhecimento:

Plataformas, Tecnologias e Conhecimentos Esperados

Este papel de Site Reliability Engineer (SRE) exige domínio técnico profundo nas plataformas já utilizadas hoje pela equipe, garantindo confiabilidade, performance, segurança e observabilidade dos sistemas em produção.

Conhecimento Profundo / Avançado (Obrigatório)

O profissional precisa dominar, tomar decisões arquiteturais e atuar como referência técnica em:

Cloud Providers

  • AWS
  • GCP
  • Desejável conhecimentos básico de Huawei

Containers e Orquestração

  • Kubernetes

Compute & Serverless

  • AWS Lambda
  • EC2
  • AWS RDS

Bancos e Cache

  • PostgreSQL
  • Redis

Rede, Edge e Segurança

  • CloudFront
  • WAF
  • ELB / ALB / NLB
  • VPC, Subnets, Security Groups
  • DNS e roteamento

Segredos e Segurança

  • Secret Manager
  • OWASP Top 10

CI/CD

  • Pipelines CI/CD (preferencialmente Bitbucket Pipelines)
  • Terraform

Armazenamento

  • AWS S3

Proxy e Web Server

  • Nginx

Monitoramento e Observabilidade

  • Monitoramento em geral
  • Grafana / Prometheus
  • AWS CloudWatch

Soluções

  • Entendimento de sistemas distribuídos e monolitos
  • Apis, proxy reverso

IA

  • Uso de ia para acelerar rotinas e soluções de problemas

Ótimo Conhecimento (Alta autonomia)

Capaz de operar, otimizar, debugar e apoiar decisões técnicas:

Mensageria e Eventos

  • SQS
  • RabbitMQ

Comunicação e Serviços AWS

  • SES
  • API Gateway
  • ECR

Linguagens e Ecossistema

Noções consistentes de:

  • JavaScript / TypeScript
  • Node.js
  • NestJS
  • ReactJS
  • Next.js
  • Sequelize/prisma/express

Observabilidade e Infraestrutura

  • CloudWatch (logs, métricas e alarmes)

Bom Conhecimento (Capaz de atuar com apoio de documentação e IA)

Conhecimento sólido para suporte, análise e evolução contínua:

Bancos e Dados

  • MongoDB
  • DynamoDB

Linguagens

  • Golang
  • Python

Infraestrutura e Automação

  • Docker / Podman

Observabilidade e Logs

  • Loki (Grafana Labs)
  • Logentries (Rapid7)

Integrações e Automação

  • n8n

DNS

  • Route53

Conhecimento Desejável (Diferencial)

Não obrigatório, mas agrega valor ao time e à maturidade da plataforma:

  • ElasticSearch / OpenSearch
  • Huawei Cloud / Infraestrutura Huawei
  • Projetos de pentest
  • GCP Big Query
  • Codepush da Microsoft implementado em Azure
Informações adicionais

🍛 Vale-alimentação ou vale-refeição;

👨🏼🎓 Desconto em cursos, universidades e instituições de idiomas;

📚 Academia Stefanini — plataforma com cursos on-line, gratuitos, atualizados e com certificado;

🗣 Mentoring;

💉 Clube de vantagens para consultas e exames;

🏥 Assistência médica;

🦷 Assistência odontológica;

💰 Clube de vantagens e descontos nos melhores estabelecimentos;

🛫 Clube de viagens;

🐶 Convênio para pets.

Obtém a tua avaliação gratuita e confidencial do currículo.
ou arrasta um ficheiro em formato PDF, DOC, DOCX, ODT ou PAGES até 5 MB.