Responsável pela construção e sustentação de pipelines escaláveis de ingestão e transformação de dados, utilizando tecnologias como PySpark e Pandas em ambientes distribuídos
Realizar validações críticas de integridade, tratamento de outliers, balanceamento de Datasets e controle de qualidade por meio de checkpoints;
Atuar de forma integrada aos serviços AWS — como EMR, Glue, S3 e Athena — viabilizando a orquestração de fluxos complexos de dados com foco em desempenho, confiabilidade e governança;
Também é responsável por garantir a disponibilidade e rastreabilidade dos dados nas camadas analíticas e operacionais.
Importante ter experiência com ferramentas de CI/CD e de versionamento de código como Gitlab e Github.
Descrição comportamental:
Procuramos uma pessoa que:
Goste de trabalhar em equipe e seja colaborativa em suas atribuições;
Tenha coragem para se desafiar e ir além, abraçando novas oportunidades de crescimento;
Transforme ideias em soluções criativas e busque qualidade em toda sua rotina;
Tenha habilidades de resolução de problemas;
Possua habilidade e se sinta confortável para trabalhar de forma independente e gerenciar o próprio tempo;
Tenha interesse em lidar com situações adversas e inovadoras no âmbito tecnológico.
* O salário de referência é obtido com base em objetivos de salário para líderes de mercado de cada segmento de setor. Serve como orientação para ajudar os utilizadores Premium na avaliação de ofertas de emprego e na negociação de salários. O salário de referência não é indicado diretamente pela empresa e pode ser significativamente superior ou inferior.