Job Search and Career Advice Platform

¡Activa las notificaciones laborales por email!

Senior Data Engineer (Data Scraping)

WayOps

Madrid

Híbrido

EUR 45.000 - 60.000

Jornada completa

Hoy
Sé de los primeros/as/es en solicitar esta vacante

Genera un currículum adaptado en cuestión de minutos

Consigue la entrevista y gana más. Más información

Descripción de la vacante

Una empresa de análisis de datos busca un Senior Data Scraping & Analysis Specialist en Madrid. El candidato ideal tendrá más de 4 años de experiencia en scraping avanzado y un sólido conocimiento de Python. Las responsabilidades incluyen diseñar y mantener pipelines de scraping en AWS, y colaborar con equipos de datos y AI. Se ofrece un contrato a tiempo completo bajo un modelo híbrido, con 3 días presenciales y 2 de teletrabajo.

Servicios

Estabilidad laboral
Modelo híbrido de trabajo
Cerca de equipos técnicos

Formación

  • Más de 4 años de experiencia en scraping avanzado y análisis de datos.
  • Experiencia sólida en Python aplicada a crawling masivo.
  • Conocimientos en técnicas de scraping impulsadas por IA.

Responsabilidades

  • Diseñar y mantener pipelines avanzados de scraping en AWS.
  • Conectar fuentes externas de información con sistemas internos.
  • Desarrollar crawlers inteligentes y estrategias anti-bot.

Conocimientos

Scraping avanzado
Python
Crawling masivo
AWS
Orquestación

Herramientas

Playwright
Selenium
BeautifulSoup
Pandas
PostgreSQL
Descripción del empleo

Buscamos un perfil Senior Data Scraping & Analysis Specialist con sólida experiencia en Python que quiera desarrollar su carrera profesional construyendo pipelines de crawling inteligente y extracción masiva de datos desplegados en ecosistemas AWS de alto rendimiento.

CONTEXTO & RESPONSABILIDADES

La persona seleccionada se incorporará al equipo Funcional con la misión crítica de conectar fuentes externas de información con los sistemas internos de análisis y los nuevos agentes de IA en la nube. El rol implica diseñar y mantener pipelines avanzados de scraping y crawling, capaces de operar a gran escala en entornos AWS, garantizando resiliencia, trazabilidad, observabilidad y cumplimiento de estándares de seguridad.

Será imprescindible dominar técnicas clásicas de scraping (Playwright, Selenium, BeautifulSoup) junto con nuevas soluciones impulsadas por IA, como Firecrawl, Crawl4AI o agentes LLM capaces de automatizar la navegación y extracción de contenido en webs dinámicas y altamente protegidas. El especialista también deberá procesar y transformar grandes volúmenes de datos dentro de arquitecturas cloud-native, integrando los resultados en los sistemas analíticos de la organización.

PROYECTO & EQUIPO

El proyecto tiene como objetivo habilitar la automatización completa de la adquisición de datos externos y su disponibilidad en AWS para alimentar plataformas analíticas y modelos de IA Generativa. Esto incluirá el desarrollo de crawlers inteligentes, estrategias anti-bot, rotación de proxies y la estructuración de datos no estructurados en formatos optimizados para su posterior consumo.

El perfil seleccionado trabajará en estrecha colaboración con los Data Scientists, AI Engineers y equipos de Backend, bajo la supervisión del Product Manager y siguiendo las directrices arquitectónicas definidas para entornos AWS. El ecosistema integra servicios como Lambda, ECS, S3, Step Functions y bases de datos distribuidas, por lo que la capacidad de diseñar pipelines cloud-native será clave para el éxito del rol.

EXPERIENCIA & CONOCIMIENTOS

Buscamos un perfil con al menos 4 años de experiencia en scraping avanzado y análisis de datos, y una profunda especialización en Python aplicada a crawling masivo y automatización web.

Se valorará especialmente la experiencia construyendo scrapers distribuidos en AWS y la exposición reciente a tecnologías de scraping impulsado por IA.

Será necesario tener experiencia con:

  • Core Scraping & Crawling:
    • Playwright, Selenium, BeautifulSoup, Requests / aiohttp
    • Firecrawl, Crawl4AI, Browserless o agentes LLM para crawling inteligente
    • Estrategias anti-bot, rotación de proxies y browser fingerprinting
  • Procesamiento & Data Engineering:
    • Python (Pandas, Polars, PySpark)
    • Pipelines ETL/ELT, normalización y limpieza de datos masivos
    • Parsing avanzado (HTML, JSON, XML, documentos estructurados y no estructurados)
  • Infraestructura en AWS (imprescindible):
    • S3, Lambda, ECS/ECR, Step Functions
    • CloudWatch (monitorización de crawlers), IAM (segmentación de permisos)
    • SQS/SNS (orquestación y comunicación)
    • AWS Glue o EMR (deseable)
  • Bases de datos:
    • PostgreSQL, MySQL, MongoDB o DynamoDB
    • Integración de datos y diseño de modelos de almacenamiento para alto volumen

Además se valorará positivamente contar con experiencia o conocimientos en:

  • Orquestación: Airflow, Prefect o Dagster
  • Infraestructura serverless y contenedores optimizados para crawling
  • Integración de datos con LLMs, RAG pipelines o agentes inteligentes
  • Visualización o análisis exploratorio de datos
  • Diseño de pipelines distribuidos de alta concurrencia
CONTRATACIÓN & UBICACIÓN

La posición tiene sede en Madrid y se rige por un contrato a tiempo completo con vocación de estabilidad. Dada la criticidad del proyecto y la necesidad de una colaboración estrecha con los equipos de negocio y técnicos, el rol requiere presencialidad en las oficinas (operando bajo un modelo híbrido, habitualmente de 3 días presenciales y 2 de teletrabajo).

Consigue la evaluación confidencial y gratuita de tu currículum.
o arrastra un archivo en formato PDF, DOC, DOCX, ODT o PAGES de hasta 5 MB.