¡Activa las notificaciones laborales por email!

Senior Data Engineer (Data Scraping)

WayOps

Madrid

Híbrido

EUR 45.000 - 60.000

Jornada completa

Hoy

Sé de los primeros/as/es en solicitar esta vacante

Genera un currículum adaptado en cuestión de minutos

Consigue la entrevista y gana más. Más información

Descripción de la vacante

Una empresa de análisis de datos busca un Senior Data Scraping & Analysis Specialist en Madrid. El candidato ideal tendrá más de 4 años de experiencia en scraping avanzado y un sólido conocimiento de Python. Las responsabilidades incluyen diseñar y mantener pipelines de scraping en AWS, y colaborar con equipos de datos y AI. Se ofrece un contrato a tiempo completo bajo un modelo híbrido, con 3 días presenciales y 2 de teletrabajo.

Servicios

Estabilidad laboral

Modelo híbrido de trabajo

Cerca de equipos técnicos

Formación

Más de 4 años de experiencia en scraping avanzado y análisis de datos.
Experiencia sólida en Python aplicada a crawling masivo.
Conocimientos en técnicas de scraping impulsadas por IA.

Responsabilidades

Diseñar y mantener pipelines avanzados de scraping en AWS.
Conectar fuentes externas de información con sistemas internos.
Desarrollar crawlers inteligentes y estrategias anti-bot.

Conocimientos

Scraping avanzado

Python

Crawling masivo

AWS

Orquestación

Herramientas

Playwright

Selenium

BeautifulSoup

Pandas

PostgreSQL

Buscamos un perfil Senior Data Scraping & Analysis Specialist con sólida experiencia en Python que quiera desarrollar su carrera profesional construyendo pipelines de crawling inteligente y extracción masiva de datos desplegados en ecosistemas AWS de alto rendimiento.

CONTEXTO & RESPONSABILIDADES

La persona seleccionada se incorporará al equipo Funcional con la misión crítica de conectar fuentes externas de información con los sistemas internos de análisis y los nuevos agentes de IA en la nube. El rol implica diseñar y mantener pipelines avanzados de scraping y crawling, capaces de operar a gran escala en entornos AWS, garantizando resiliencia, trazabilidad, observabilidad y cumplimiento de estándares de seguridad.

Será imprescindible dominar técnicas clásicas de scraping (Playwright, Selenium, BeautifulSoup) junto con nuevas soluciones impulsadas por IA, como Firecrawl, Crawl4AI o agentes LLM capaces de automatizar la navegación y extracción de contenido en webs dinámicas y altamente protegidas. El especialista también deberá procesar y transformar grandes volúmenes de datos dentro de arquitecturas cloud-native, integrando los resultados en los sistemas analíticos de la organización.

PROYECTO & EQUIPO

El proyecto tiene como objetivo habilitar la automatización completa de la adquisición de datos externos y su disponibilidad en AWS para alimentar plataformas analíticas y modelos de IA Generativa. Esto incluirá el desarrollo de crawlers inteligentes, estrategias anti-bot, rotación de proxies y la estructuración de datos no estructurados en formatos optimizados para su posterior consumo.

El perfil seleccionado trabajará en estrecha colaboración con los Data Scientists, AI Engineers y equipos de Backend, bajo la supervisión del Product Manager y siguiendo las directrices arquitectónicas definidas para entornos AWS. El ecosistema integra servicios como Lambda, ECS, S3, Step Functions y bases de datos distribuidas, por lo que la capacidad de diseñar pipelines cloud-native será clave para el éxito del rol.

EXPERIENCIA & CONOCIMIENTOS

Buscamos un perfil con al menos 4 años de experiencia en scraping avanzado y análisis de datos, y una profunda especialización en Python aplicada a crawling masivo y automatización web.

Se valorará especialmente la experiencia construyendo scrapers distribuidos en AWS y la exposición reciente a tecnologías de scraping impulsado por IA.

Será necesario tener experiencia con:

Core Scraping & Crawling:
- Playwright, Selenium, BeautifulSoup, Requests / aiohttp
- Firecrawl, Crawl4AI, Browserless o agentes LLM para crawling inteligente
- Estrategias anti-bot, rotación de proxies y browser fingerprinting
Procesamiento & Data Engineering:
- Python (Pandas, Polars, PySpark)
- Pipelines ETL/ELT, normalización y limpieza de datos masivos
- Parsing avanzado (HTML, JSON, XML, documentos estructurados y no estructurados)
Infraestructura en AWS (imprescindible):
- S3, Lambda, ECS/ECR, Step Functions
- CloudWatch (monitorización de crawlers), IAM (segmentación de permisos)
- SQS/SNS (orquestación y comunicación)
- AWS Glue o EMR (deseable)
Bases de datos:
- PostgreSQL, MySQL, MongoDB o DynamoDB
- Integración de datos y diseño de modelos de almacenamiento para alto volumen

Además se valorará positivamente contar con experiencia o conocimientos en:

Orquestación: Airflow, Prefect o Dagster
Infraestructura serverless y contenedores optimizados para crawling
Integración de datos con LLMs, RAG pipelines o agentes inteligentes
Visualización o análisis exploratorio de datos
Diseño de pipelines distribuidos de alta concurrencia

CONTRATACIÓN & UBICACIÓN

La posición tiene sede en Madrid y se rige por un contrato a tiempo completo con vocación de estabilidad. Dada la criticidad del proyecto y la necesidad de una colaboración estrecha con los equipos de negocio y técnicos, el rol requiere presencialidad en las oficinas (operando bajo un modelo híbrido, habitualmente de 3 días presenciales y 2 de teletrabajo).

Consigue la evaluación confidencial y gratuita de tu currículum.

o arrastra un archivo en formato PDF, DOC, DOCX, ODT o PAGES de hasta 5 MB.

Ciudades destacadas

Empresas destacadas

Vacantes populares