Estamos em busca de um(a) Especialista Sysadmin / SRE será responsável por gerenciar, monitorar e otimizar a infraestrutura de servidores Linux em ambientes de produção e desenvolvimento. Atuará na automação de processos, gerenciamento de incidentes e suporte às equipes de desenvolvimento, com foco na confiabilidade e estabilidade das plataformas.
Requisitos
- Ensino superior completo em Engenharia da Computação, Sistemas da Informação, Redes ou áreas correlatas;
- Domínio em Kubernetes, incluindo a instalação, configuração, manutenção e escalabilidade de clusters. (Certified Kubernetes Administrator - CKA);
- Expertise com administração de sistemas Linux em ambientes on-premises, incluindo instalação, configuração e manutenção de servidores físicos e virtuais. (Red Hat Certified Engineer – RHCSE);
- Experiência com automação de infraestrutura utilizando ferramentas como Ansible, Terraform, Puppet ou similares;
- Domínio em API Gateways (ex. : Kong, Apigee, etc), com experiência em configuração e gestão de tráfego de APIs em ambientes on-premises;
- Domínio em observabilidade(Zabbix, Dynatrace, Datadog, Prometheus, Grafana, ELK Stack);
- Experiência com redes e protocolos de comunicação (TCP / IP, HTTP, DNS, SSL / TLS), e conhecimentos sobre segurança de APIs e criptografia;
- Habilidades de scripting em linguagens como Python eShell.
Responsabilidades
- Implementação e manutenção de Kubernetes : Configurar, manter e escalar clusters Kubernetes em ambientes on-premises, garantindo alta disponibilidade e performance;
- Gerenciamento e administração de infraestrutura on-premises : Gerenciar e otimizar a infraestrutura de servidores físicos e virtualizados, com foco na automação e confiabilidade dos ambientes;
- Automação de processos e provisionamento de recursos : Automatizar tarefas repetitivas de provisionamento, configuração e monitoramento de servidores e aplicativos utilizando ferramentas como Ansible, Terraform, puppet, etc;
- Gerenciamento de APIs com API Gateway : Implementar e gerenciar soluções de API Gateway para controlar o tráfego e otimizar a comunicação entre microserviços e sistemas;
- Observabilidade e monitoramento (Logs, Metricas e Trace) : Criar e manter sistemas de monitoramento e alertas para garantir visibilidade em tempo real do estado da infraestrutura e dos serviços, utilizando ferramentas como , Dynatrace, Datadog, Prometheus, Grafana, ELK Stack, ou similares;
- Suporte técnico e resolução de problemas : Fornecer suporte em tempo real para problemas de infraestrutura e trabalhar com equipes de desenvolvimento para diagnóstico e resolução de incidentes;
- Melhoria contínua da infraestrutura : Propor e implementar melhorias de infraestrutura com foco em automação, segurança, desempenho e redução de custos operacionais;
- Documentação : Criar e manter documentação técnica detalhada sobre procedimentos, processos e configurações.