Job description
.
Main responsibilities
- Projetar e desenvolver pipelines de dados escaláveis utilizando Databricks (PySpark) para processamento e análise de grandes conjuntos de dados;
- Colaborar com as equipes de engenharia e ciência de dados para entender os requisitos e fornecer soluções eficientes;
- Implementar transformações de dados complexas, limpeza de dados e agregações usando PySpark e otimizar o desempenho do código;
- Utilizar Python ElementTree para manipulação eficiente de dados XML e integração de dados heterogêneos;
- Desenvolver scripts em Python utilizando Pandas para manipulação e análise de dados estruturados;
- Garantir a qualidade e integridade dos dados, implementando práticas de teste e monitoramento;
- Colaborar na definição e implementação de melhores práticas de engenharia de dados e arquitetura de dados;
- Manter documentação técnica abrangente para os processos e soluções implementadas.
Requirements and skills
- Experiência na criação e sustentação de pipelines ETL para bases de dados analíticas;
- Domínio em SQL (DML, DDL, DQL) e Banco de Dados SQL (Oracle, SQL Server, PostgreSQL);
- Experiência com Python, Spark, PySpark e Spark SQL;
- Conhecimento em Azure Databricks, Azure Data Factory, Azure Dataflow e Synapse Analytics;
- Conhecimento em AWS;
- Experiência com virtualização de dados de diversas fontes (SQL, NoSQL, ServiceNow, arquivos CSV/JSON, etc.);
- Habilidades no desenvolvimento de processos ETL e workflows;
- Experiência com Containers e orquestradores como Airflow e Control-M;
- Conhecimento sobre Governança e Arquitetura de Dados;
- Experiência em monitoramento e metodologias de mensuração de resultado;
- Domínio de Git Workflow (Git, GitHub) e geração de scripts;
- Desejável: Experiência com ingestão e migração de bases de dados legadas para nuvem (Oracle/SQL Server/PostgreSQL on-premise para cloud).
Não possui todos os requisitos para a vaga?
Está tudo bem! Na Compass UOL, estimulamos o desenvolvimento contínuo de novos talentos e transformamos desafios em oportunidades.
Additional information
#remote
"remote"