SRE – Senior Site Reliability Engineer K2 Solutions•São Paulo - SP
Descrição da vaga
Trabalho híbrido na região de Pinheiros/ SP – 3x por semana no escritório
Responsabilidades
- Definir, implementar e monitorar Service Level Objectives (SLOs), SLIs e error budgets em serviços principais.
- Construir e manter stacks de observabilidade usando NewRelic (ou outras ferramentas) para garantir visibilidade completa da saúde dos sistemas.
- Automatizar tarefas operacionais por meio de infraestrutura como código (IaC) e pipelines de CI/CD.
- Colaborar com os times de Infraestrutura e DBA para otimizar desempenho e melhorar a tolerância a falhas.
- Desenvolver processos de resposta a incidentes, runbooks e postmortems para aprimorar a confiabilidade dos sistemas.
- Gerenciar e ajustar sistemas baseados em Kafka, garantindo alta taxa de transferência e baixa latência.
- Participar de planejamento de capacidade, testes de carga e estratégias de escalabilidade para cenários de alta demanda.
- Melhorar continuamente os pipelines de deploy, monitoramento e procedimentos de recuperação.
- Fornecer mentoria técnica e orientar os times de engenharia nas melhores práticas de confiabilidade.
Requisitos
- Graduação em Ciência da Computação, Engenharia ou experiência equivalente.
- 5+ anos de experiência em funções de Site Reliability, DevOps ou Engenharia de Produção.
- Conhecimento sólido em AWS (EC2, ECS, S3, RDS, CloudWatch, Lambda, VPC).
- Forte domínio de ferramentas de observabilidade NewRelic, Grafana, Prometheus, ElasticSearch, Kibana).
- Experiência na manutenção de sistemas orientados a eventos com Kafka.
- Familiaridade com Terraform, Docker e/ou Kubernetes para automação e deploy.
- Experiência na construção e manutenção de pipelines de CI/CD.
- Sólida compreensão de sistemas distribuídos, redes e otimização de desempenho.
- Disponibilidade para trabalhar em turnos noturnos (escala de plantão).
- Disponibilidade para cobrir turnos de trabalho durante períodos de alta demanda e suporte técnico (escalas de plantão).
- Disponibilidade para trabalhar horas extras remuneradas, caso seja necessário resolver um problema técnico.
Diferenciais
- Experiência com frameworks de gerenciamento de incidentes.
- Conhecimento em práticas de confiabilidade de banco de dados e colaboração com times de DBA.
- Familiaridade com segurança, compliance e auditoria em ambientes em nuvem.
- Entendimento de otimização de custos e engenharia de performance na AWS.
- Fluência em inglês (falado e escrito).
Empresa de Tecnologia
Contratação via cooperativa