Ativa os alertas de emprego por e-mail!

SRE - Site Reliability Engineering

Stefanini Group

Pinheiros

Híbrido

BRL 160.000 - 200.000

Tempo integral

Há 2 dias

Torna-te num dos primeiros candidatos

Cria um currículo personalizado em poucos minutos

Consegue uma entrevista e ganha mais. Sabe mais

Resumo da oferta

Uma empresa de tecnologia em São Paulo busca um Site Reliability Engineer (SRE) para elevar a confiabilidade e a observabilidade dos sistemas em produção. O profissional será responsável por resolver incidentes, otimizar operações e garantir segurança na nuvem. É necessário conhecimento em AWS, Kubernetes, PostgreSQL e CI/CD. Além disso, a empresa oferece um ambiente híbrido, com benefícios como assistência médica e vale-alimentação.

Serviços

Vale-alimentação ou vale-refeição

Desconto em cursos

Assistência médica

Clube de vantagens para pets

Qualificações

Domínio técnico profundo nas plataformas utilizadas pela equipe.
Conhecimento em Cloud Providers (AWS, GCP).
Experiência em CI/CD e monitoramento.

Responsabilidades

Elevar a confiabilidade e observabilidade dos sistemas.
Identificar falhas recorrentes em produção.
Apoiar na gestão de bancos de dados em produção.

Conhecimentos

AWS

Kubernetes

PostgreSQL

Grafana

Node.js

RabbitMQ

Ferramentas

Terraform

Nginx

Descrição da vaga

Na Stefanini, acreditamos no poder da colaboração. Co-criamos soluções inovadoras em parceria com nossos clientes, combinando tecnologia de ponta, inteligência artificial e a criatividade humana. Estamos na vanguarda da resolução de problemas de negócios, proporcionando impacto real em escala global.

Ao se juntar à Stefanini, você se torna parte de uma jornada global de transformação. Estamos empenhados em criar impacto positivo não apenas nos negócios, mas também na vida de nossos colaboradores. Se você procura uma oportunidade de crescimento profissional em uma empresa que valoriza inovação, respeito, autonomia e parceria, você encontra aqui!

Junte-se a nós e seja parte da mudança!

Modelo de trabalho - Atuação em modelo híbrido, na região do Butantã

Responsabilidades e atribuições

O que esperamos que você realize:

Visão Geral da Posição

Foco em elevar o nível de confiabilidade, observabilidade e resiliência dos sistemas já operados pela equipe atual de DevOps.

Hoje, a equipe já executa todas as rotinas essenciais de operação, infraestrutura e suporte a produção, porém de forma reativa ou distribuída e com foco em manter e suportar os times.

O papel de SRE surge para estruturar, padronizar, medir risco e transformar operação em engenharia.

Objetivo do Cargo

Garantir que sistemas em produção sejam:

Confiáveis
Disponíveis
Observáveis
Escaláveis
Financeiramente sustentáveis

Tudo isso usando engenharia, automação e métricas claras, a partir das atividades que a equipe já executa hoje.

Responsabilidades (Baseadas no que a equipe já faz hoje)

Observabilidade e Produção

Evoluir monitoramento atual para visão de negócio e continuidade
Identificar falhas recorrentes em produção
Atuar na análise e resolução de incidentes
Criar e manter runbooks operacionais

Incidentes e Pós-Incidente

Liderar e documentar post-mortems
Identificar causas raiz (RCA)
Propor melhorias estruturais para evitar recorrência
Trabalhar sem cultura de culpa (blameless)

Confiabilidade de Bancos de Dados

Apoiar a gestão de bancos de dados em produção
Analisar gargalos e riscos operacionais
Trabalhar junto aos times para melhorias de performance
Análise de query, índices e configurações. Criação de migration nos projetos para aplicar mudanças no ambiente

Cloud, Segurança e Estabilidade

Atuar na segurança da cloud com foco em disponibilidade
Avaliar riscos de configuração e arquitetura
Trabalhar com DevOps na evolução da plataforma
Apoiar decisões arquiteturais com foco em resiliência

Capacidade, Custos e FinOps

Relacionar custo x confiabilidade x capacidade
Sugerir melhorias para uso eficiente de recursos

Releases e Pipelines (Interface com DevOps)

Atuar junto ao time de DevOps em releases críticos
Avaliar riscos de deploy em produção
Apoiar estratégias de rollback e mitigação
Ajudar na correção de falhas de pipeline quando impactam produção

Requisitos e qualificações

O que precisamos que você tenha de conhecimento:

Plataformas, Tecnologias e Conhecimentos Esperados

Este papel de Site Reliability Engineer (SRE) exige domínio técnico profundo nas plataformas já utilizadas hoje pela equipe, garantindo confiabilidade, performance, segurança e observabilidade dos sistemas em produção.

Conhecimento Profundo / Avançado (Obrigatório)

O profissional precisa dominar, tomar decisões arquiteturais e atuar como referência técnica em:

Cloud Providers

AWS
GCP
Desejável conhecimentos básico de Huawei

Containers e Orquestração

Kubernetes

Compute & Serverless

AWS Lambda
EC2
AWS RDS

Bancos e Cache

PostgreSQL
Redis

Rede, Edge e Segurança

CloudFront
WAF
ELB / ALB / NLB
VPC, Subnets, Security Groups
DNS e roteamento

Segredos e Segurança

Secret Manager
OWASP Top 10

CI/CD

Pipelines CI/CD (preferencialmente Bitbucket Pipelines)
Terraform

Armazenamento

AWS S3

Proxy e Web Server

Nginx

Monitoramento e Observabilidade

Monitoramento em geral
Grafana / Prometheus
AWS CloudWatch

Soluções

Entendimento de sistemas distribuídos e monolitos
Apis, proxy reverso

Uso de ia para acelerar rotinas e soluções de problemas

Ótimo Conhecimento (Alta autonomia)

Capaz de operar, otimizar, debugar e apoiar decisões técnicas:

Mensageria e Eventos

SQS
RabbitMQ

Comunicação e Serviços AWS

SES
API Gateway
ECR

Linguagens e Ecossistema

Noções consistentes de:

JavaScript / TypeScript
Node.js
NestJS
ReactJS
Next.js
Sequelize/prisma/express

Observabilidade e Infraestrutura

CloudWatch (logs, métricas e alarmes)

Bom Conhecimento (Capaz de atuar com apoio de documentação e IA)

Conhecimento sólido para suporte, análise e evolução contínua:

Bancos e Dados

MongoDB
DynamoDB

Linguagens

Golang
Python

Infraestrutura e Automação

Docker / Podman

Observabilidade e Logs

Loki (Grafana Labs)
Logentries (Rapid7)

Integrações e Automação

DNS

Route53

Conhecimento Desejável (Diferencial)

Não obrigatório, mas agrega valor ao time e à maturidade da plataforma:

ElasticSearch / OpenSearch
Huawei Cloud / Infraestrutura Huawei
Projetos de pentest
GCP Big Query
Codepush da Microsoft implementado em Azure

Informações adicionais

🍛 Vale-alimentação ou vale-refeição;

👨🏼🎓 Desconto em cursos, universidades e instituições de idiomas;

📚 Academia Stefanini — plataforma com cursos on-line, gratuitos, atualizados e com certificado;

🗣 Mentoring;

💉 Clube de vantagens para consultas e exames;

🏥 Assistência médica;

🦷 Assistência odontológica;

💰 Clube de vantagens e descontos nos melhores estabelecimentos;

🛫 Clube de viagens;

🐶 Convênio para pets.

Obtém a tua avaliação gratuita e confidencial do currículo.

ou arrasta um ficheiro em formato PDF, DOC, DOCX, ODT ou PAGES até 5 MB.