Principales responsabilités
- Développement du pipeline de données - Concevoir, construire et maintenir des pipelines ETL / ELT évolutifs et fiables; intégrer des données provenant de diverses sources structurées et non structurées (API, bases de données, stockage cloud); assurer des processus d'ingestion et de transformation de données de haute qualité
- Architecture et modélisation des données - Travailler sur la modélisation des données, la conception de schémas et la mise en oeuvre de lacs / entrepôts de données; collaborer avec les parties prenantes pour traduire les exigences commerciales en structures de données évolutives; soutenir la mise en oeuvre d'outils de catalogage et de lignage de données
- Intégration du Cloud et du Big Data - Développer des solutions de données à l'aide de plateformes cloud telles qu'AWS, Azure ou GCP; exploiter les services cloud natifs pour l'ingestion, la transformation et le stockage des données (par exemple, AWS Glue, Azure Data Factory, GCP Dataflow)
- Qualité et gouvernance des données - Mettre en oeuvre la surveillance, la journalisation et les alertes pour l'intégrité des données; maintenir la conformité avec les normes de confidentialité, de sécurité et de gouvernance des données; collaborer à la création d'une source unique de vérité pour les consommateurs de données
- Collaboration et soutien - Travailler de manière transversale avec les scientifiques des données, les équipes BI et les chefs de produit; documenter les flux de données, l'architecture et les pratiques standard; fournir un soutien aux initiatives d'analyse, d'apprentissage automatique et de reporting
Expérience et éducation
- Expérience : 2 à 3 ans d'expérience en ingénierie des données ou dans des domaines connexes
- Éducation : Maîtrise ou baccalauréat en informatique, en ingénierie des données, en systèmes d'information ou dans une discipline connexe
Compétences techniques
- Programmation : Python, SQL, Java ou Scala
- Plateformes de données : Apache Spark, Kafka, Airflow ou outils similaires
- Bases de données : PostgreSQL, MySQL, MongoDB ou Snowflake
- Cloud : AWS (S3, Glue, Redshift), Azure (Data Factory, Synapse) ou GCP (BigQuery, Dataflow)
- Outils de données : frameworks ETL, DBT, Terraform (pour l'infrastructure)
- Contrôle de version : Git, intégration CI / CD
Compétences générales
- Solide capacité de résolution de problèmes et de pensée analytique
- Grande attention aux détails et à la qualité des données
- Bonnes compétences en communication et en travail d'équipe
- Capacité à travailler de manière autonome et à gérer plusieurs priorités