Job Search and Career Advice Platform

Ativa os alertas de emprego por e-mail!

Engenheiro De Dados Sênior

Vert Analytics Ltda

Distrito Federal

Híbrido

BRL 20.000 - 80.000

Tempo integral

Há 2 dias
Torna-te num dos primeiros candidatos

Cria um currículo personalizado em poucos minutos

Consegue uma entrevista e ganha mais. Sabe mais

Resumo da oferta

Uma empresa de análise de dados está contratando um Engenheiro de Dados para trabalhar com Data Lakehouse na AWS. O profissional será responsável por projetar pipelines de dados, otimizar modelos analíticos e colaborar com equipes de negócios. É essencial ter experiência em AWS, Python e Power BI. A vaga é híbrida, exigindo presença em Brasília 2 a 3 vezes por semana e oferece oportunidades de crescimento profissional em um ambiente colaborativo e inovador.

Qualificações

  • Sólida experiência com AWS, incluindo S3 e Glue.
  • Forte domínio de Python e SQL.
  • Experiência com Power BI em modelagem semântica.

Responsabilidades

  • Projetar e implementar pipelines de dados em Airflow/MWAA.
  • Modelar camadas Bronze/Silver/Gold em S3.
  • Colaborar com analistas para desenvolver datasets.

Conhecimentos

Experiência prática com AWS
Domínio em Python
Conhecimento em SQL avançado
Vivência com Power BI
Boas práticas de engenharia
Conhecimento em segurança e governança de dados

Formação académica

Graduação em Ciência da Computação ou áreas correlatas
Especialização em Engenharia de Dados (desejável)

Ferramentas

Airflow
Amazon Redshift
Docker
Descrição da oferta de emprego
Descrição Do Trabalho

Vaga: Engenheiro de Dados

Modelo de atuação: Híbrido (2 a 3 vezes por semana em Brasília)

Sobre a vaga Você fará parte do time responsável por evoluir nossa plataforma Data Lakehouse na AWS, integrando dados de múltiplas fontes, orquestrando pipelines confiáveis e disponibilizando camadas analíticas performáticas para consumo via Redshift e Power BI.

Na Stefanini, acreditamos no poder da colaboração. Co-criamos soluções inovadoras em parceria com nossos clientes, combinando tecnologia de ponta, inteligência artificial e a criatividade humana. Estamos na vanguarda da resolução de problemas de negócios, proporcionando impacto real em escala global.

Ao se juntar à Stefanini, você se torna parte de uma jornada global de transformação. Estamos empenhados em criar impacto positivo não apenas nos negócios, mas também na vida de nossos colaboradores. Se você procura uma oportunidade de crescimento profissional em uma empresa que valoriza inovação, respeito, autonomia e parceria, você encontra aqui!

Junte-se a nós e seja parte da mudança!

Responsabilidades
  • Projetar e implementar pipelines de dados em Airflow/MWAA, utilizando Python e SQL, seguindo boas práticas de modularidade, testes e versionamento.
  • Modelar camadas Bronze/Silver/Gold (arquitetura medallion) em S3 + Glue Data Catalog, definindo partições, formatos (Parquet/Delta) e tabelas otimizadas para consulta.
  • Construir e otimizar modelos analíticos em Amazon Redshift, garantindo performance e custo.
  • Publicar e manter datasets confiáveis para Power BI, incluindo incremental refresh, agregações e uso eficiente de DirectQuery/Import em Redshift.
  • Colaborar com analistas e times de negócio, traduzindo necessidades em datasets, KPIs e camadas consumíveis, documentando catálogos e contratos de dados.
  • Projetar e implementar pipelines de dados para alimentar o processo de customização do LLM.
  • Coletar, processar e estruturar fontes de dados diversas.
  • Desenvolver scripts e processos para extração de dados estruturados e não estruturados.
  • Implementar transformações para converter dados brutos em formatos adequados para treinamento.
  • Garantir a qualidade, consistência e relevância dos dados utilizados no treinamento.
  • Criar mecanismos para validação e teste dos conjuntos de dados.
  • Desenvolver processos para enriquecimento de dados.
  • Implementar armazenamento eficiente de dados e resultados de treinamento.
  • Configurar a integração de dados entre o modelo treinado e a plataforma Elastic.
  • Documentar arquitetura de dados, fluxos e transformações.
  • Implementar práticas de versionamento e rastreabilidade de dados.
  • Optimizar o fluxo de dados para as iterações de treinamento do modelo.
  • Garantir a segurança e conformidade no tratamento dos dados utilizados.
Requisitos obrigatórios
  • Experiência prática com AWS (S3, Glue Data Catalog, Redshift, Airflow/MWAA).
  • Domínio em Python e SQL avançado.
  • Vivência com Power BI (modelagem semântica, DAX, incremental refresh, gateway, consumo de Redshift).
  • Experiência com arquitetura Data Lakehouse (medallion, Bronze/Silver/Gold, Parquet, partições e metadados).
  • Boas práticas de engenharia: Git, testes, code reviews, documentação, pipelines confiáveis.
  • Conhecimento em segurança e governança de dados (IAM, criptografia, princípios de mínimo privilégio, LGPD).
Diferenciais
  • Experiência com Spark/EMR, Glue ETL (PySpark), dbt para Redshift, Redshift Serverless.
  • Conhecimento em Lake Formation, Athena, CloudWatch, ferramentas de qualidade de dados (Great Expectations/Deequ).
  • Experiência com otimização de custo/performance, compaction, partition pruning, materializações e agregações para Power BI.
  • Vivência com Terraform/CloudFormation (IaC).
Formação
  • Graduação em Ciência da Computação, Engenharia de Software, Sistemas de Informação ou áreas correlatas.
  • Especialização em Engenharia de Dados, Big Data ou Analytics (desejável).
  • Certificações relevantes em plataformas de dados (ex: Elastic Certified Engineer – desejável).
  • Cursos complementares em processamento de linguagem natural ou preparação de dados para ML (desejável).
Experiência
  • Experiência na construção de pipelines de dados para aplicações de machine learning.
  • Vivência com extração, transformação e carregamento (ETL) de dados não estruturados.
  • Experiência na preparação de datasets para treinamento de modelos de linguagem.
  • Conhecimento prático da plataforma Elastic Stack (Elasticsearch, Logstash, Kibana).
  • Desejável certificação nas soluções Elastic.
  • Experiência com integração de fontes de dados heterogêneas.
  • Vivência com sistemas de armazenamento e processamento de dados em larga escala.
  • Experiência em projetos envolvendo dados de segurança da informação (desejável).
  • Domínio de ferramentas de processamento de dados (ex: Apache Spark, Pandas).
  • Proficiência em linguagens de programação para manipulação de dados (Python).
  • Conhecimento sólido em bancos de dados SQL e NoSQL.
  • Familiaridade com formatos de dados para NLP e treinamento de LLMs.
  • Experiência com APIs e métodos de coleta de dados de fontes externas.
  • Conhecimento em sistemas de versionamento de dados e metadados.
  • Familiaridade com ambiente cloud para processamento de dados.
  • Experiência com Docker.
  • Familiaridade com Kubernetes e orquestração de serviços.
  • Conhecimento em práticas de data governance e qualidade de dados.
Habilidades
  • Capacidade analítica e resolução de problemas complexos de dados.
  • Atenção meticulosa a detalhes e qualidade dos dados.
  • Organização e documentação de processos de dados.
  • Habilidade para otimizar pipelines de dados para eficiência.
  • Comunicação clara sobre aspectos técnicos de dados.
  • Capacidade de trabalhar com diferentes stakeholders técnicos.
  • Pensamento crítico para avaliação de qualidade e relevância de dados.
  • Proatividade na identificação e solução de problemas de dados.
  • Adaptabilidade para trabalhar com diferentes tecnologias e fontes de dados.
  • Capacidade de balancear velocidade de entrega com qualidade de dados.
Esse trabalho é adequado ou não?

Observação: Se lhe pedirem para pagar por um emprego, evite a vaga e denuncie o emprego imediatamente.

Obtém a tua avaliação gratuita e confidencial do currículo.
ou arrasta um ficheiro em formato PDF, DOC, DOCX, ODT ou PAGES até 5 MB.