Estamos em busca de uma pessoa Analista SRE Pleno para integrar nosso time e atuar na sustentação e evolução da nossa infraestrutura e plataformas de produção, garantindo alta disponibilidade, confiabilidade e performance dos serviços.
O que você vai fazer
- Atuar no suporte de segundo nível (N2) em incidentes e requisições relacionadas à infraestrutura do MB e plataformas de Produção, garantindo a disponibilidade e estabilidade dos serviços, com autonomia para conduzir investigações e propor correções
- Apoiar na gestão da infraestrutura de produção, diagnosticando e resolvendo problemas para minimizar o tempo de inatividade e garantir a continuidade dos serviços
- Executar scripts e operações processuais em ambientes de Produção e não Produtivos, buscando padronização e redução de atividades manuais
- Automatizar processos e tarefas repetitivas para melhorar a eficiência operacional e a confiabilidade dos ambientes
- Apoiar na manutenção e provisionamento de infraestrutura como código (IaC) utilizando Terraform, contribuindo com melhorias e boas práticas de versionamento
- Monitorar sistemas e aplicativos, investigando alertas e logs (incluindo Kubernetes), analisando problemas e implementando soluções
- Trabalhar em conjunto com os desenvolvedores e demais times para resolução de problemas e para evoluir sistemas mais resilientes, escaláveis, confiáveis e de alta performance
- Participar de análises post-mortem e apoiar a criação de relatórios de incidentes, garantindo acompanhamento das ações e melhoria contínua
- Sugerir e implementar melhorias de desempenho, observabilidade e escalabilidade nos serviços e plataformas
O que precisamos que você tenha
- Graduação em Sistemas de Informação, Ciência da Computação, Engenharias e demais cursos da área (ou experiência equivalente)
- Experiência prévia em SRE, DevOps ou funções relacionadas a suporte técnico/infraestrutura, com vivência em sustentação de produção e resposta a incidentes
- Conhecimento sólido de Linux e Sistemas Operacionais
- Conhecimento prático de nuvem pública (GCP, AWS, Azure) e seus principais serviços
- Experiência com containers e orquestração (Docker e Kubernetes)
- Familiaridade com ferramentas de versionamento como Git e repositórios no GitHub
- Conhecimento e experiência em infraestrutura como código (IaC), com Terraform (e noções de boas práticas de manutenção/evolução)
- Proficiência em scripts de automação (Python, Bash, etc.)
- Familiaridade com ferramentas de CI/CD (Jenkins, Github Actions, etc.)
- Organização e boa comunicação para lidar com chamados, priorização de demandas via Jira e interagir com times de desenvolvimento
- Habilidades de resolução de problemas e pensamento crítico
Diferenciais
- Experiência prévia com ambientes de produção em nuvem, especialmente GCP (Google Cloud Platform)
- Conhecimento e experiência com monitoramento e observabilidade (ex: Prometheus, Grafana, Stackdriver)
- Noções de segurança em cloud, controle de acesso e gestão de identidades
- Vivência com práticas de SRE e cultura DevOps
- Conhecimento e experiência em ferramentas complementares de IaC/automação (Ansible e/ou Terragrunt)
- Certificações GCP, Kubernetes ou Terraform (ou SRE/DevOps/Cloud Providers)
- Experiência com bancos de dados e desenvolvimento de microsserviços