¡Activa las notificaciones laborales por email!

Data Acquisition Engineer

Walkway

A distancia

EUR 30.000 - 40.000

Jornada completa

Hace 2 días

Sé de los primeros/as/es en solicitar esta vacante

Genera un currículum adaptado en cuestión de minutos

Consigue la entrevista y gana más. Más información

Descripción de la vacante

Una empresa dedicada a la inteligencia de ingresos busca un Ingeniero de Datos para recolectar y mantener datos web mediante spiders en Python y JavaScript. El rol implica trabajar en un entorno remoto, ajustando algoritmos y garantizando la calidad de los datos. Se busca alguien con habilidades en scraping, adaptabilidad y ganas de aprender. Esta posición es ideal para principiantes con expectativas de crecimiento en el campo. Trabajo en un equipo colaborativo y con impacto directo en los productos de datos utilizados por operadores.

Servicios

Trabajo remoto completo

Recorridos de equipo anuales

Aprendizaje de ingenieros senior

Formación

Alguna experiencia práctica en scraping es bienvenida.
Comodidad con Node.js y TypeScript o JavaScript.
Curiosidad y alta energía para resolver problemas.

Responsabilidades

Construir y mantener spiders y coleccionistas API en Python y JavaScript.
Automatizar navegadores cuando sea necesario usando Playwright o Puppeteer.
Monitorear ejecuciones y frescura de datos.

Conocimientos

Recolección de datos web

Python

JavaScript

Automatización de navegador

SQL básico

Adaptabilidad

Educación

Experiencia en scraping

Herramientas

Node.js

Playwright

Puppeteer

GCP

BigQuery

Descripción del trabajo

Contrato; empresa con sede en EE. UU. Operamos de forma remota, la mayoría del equipo de Ingeniería está en CET.

Acerca de Walkway

Walkway construye inteligencia de ingresos impulsada por IA para tours y actividades. Los operadores utilizan nuestra plataforma para análisis en tiempo real, benchmarks competitivos y precios dinámicos. Nuestro equipo de datos recopila datos web y API a gran escala para impulsar estas ideas.

El Rol

Formamos un grupo pequeño y enfocado que posee la cobertura de fuentes y su frescura. El Líder de Adquisición de Datos establece prioridades y revisa arreglos complejos; el Ingeniero de Datos mantiene esquemas, pipelines y SLAs. Usted dirigirá la salud diaria de los spiders y el QA.

Enfoque del Rol

80 %

Recolección de datos web y fiabilidad de spiders;

20 %

Pequeñas transformaciones cuando cambien los formatos para que las tablas de destino se mantengan consistentes. Mantendrá los pipelines saludables, apoyará a usuarios internos y realizará controles de calidad para que los datos se mantengan precisos en todo momento. Este es un puesto para principiantes con gran oportunidad de crecimiento.

Responsabilidades

80 % – Spiders y recolección de datos

Construir y mantener spiders y coleccionistas API en Python / JavaScript; adaptarse rápidamente cuando los sitios cambien.

• Manejo de fundamentos HTTP: encabezados, cookies, sesiones, paginación, límites de tasa, reintentos con backoff.

• Automatización de navegador cuando sea necesario: Playwright o Puppeteer para páginas dinámicas.

• Triage y reparación de fallas: selectores, flujos de autenticación, captcha o respuestas antibot, rotación de proxies.

• Monitoreo de ejecuciones y frescura; creación de alertas y paneles simples; escalado cuando los SLAs estén en riesgo.

• Escritura de verificaciones de validación y QA a nivel de fuente para impedir que datos malos entren al almacén.

• Documentar playbooks para que las correcciones sean repetibles.

20 % – Transformaciones, QA y soporte

Ajustar transformaciones pequeñas en Python o SQL cuando una salida de fuente cambie.

Reconciliar conteos de filas y campos clave con benchmarks; elevar y resolver problemas de calidad de datos.

Colaborar con ingenieros de datos en esquemas y cargas idempotentes al almacén.

Actualizar DAGs o trabajos cuando los formatos de fuente cambien para que las tareas hijas se ejecuten de manera idempotente y programada.

Proveer soporte técnico ligero a consumidores internos.

Siempre

Seguir directrices legales y éticas para la recolección de datos; respetar términos, privacidad y controles de acceso.

Comunicar claramente en inglés con ingenieros y stakeholders no técnicos.

Estack (no necesita dominar todo)

Node.js en JavaScript o TypeScript
Fundamentos de async y await
Framework Crawlee: PlaywrightCrawler, PuppeteerCrawler, HttpCrawler
Automatización de navegador: Playwright o Puppeteer
HTTP y análisis DOM: Cheerio
Crawling a gran escala: colas de peticiones, concurrencia escalada, grupos de sesiones
Proveedores de proxy: integración y rotación, residencial o data‑center, targeteo por país, sticky session
GCP básicos: Cloud Run o Cloud Functions, Pub/Sub, Cloud Storage, Cloud Scheduler
Datos: BigQuery o Postgres, manejo de CSV o Parquet

Lo que aporta

Alguna experiencia práctica en scraping; proyectos personales o pasantías bienvenidos.
Fundamentos web: HTTP, encabezados y cookies, manejo de sesión, APIs JSON, flujos de autenticación simples.
Comodidad con Node.js y TypeScript o JavaScript; disposición a aprender automatización de navegador y patrones de concurrencia.
Curiosidad y alta energía: le gusta resolver fallos y hacer que todo funcione nuevamente.
Adaptabilidad en un entorno de rápido cambio; prioridad bajo orientación.
Experiencia con otros frameworks de crawling (p. ej. Scrapy) valorado y un plus.
Programar y orquestar planes con confiabilidad usando Cloud Scheduler y Airflow o Mage cuando sea apropiado, con SLAs claros y alertas.
Familiaridad con tácticas antibot y estrategias de bypass; proxies rotatorios; navegadores sin cabeza.
SQL básico; comodidad leyendo o escribiendo consultas simples para QA.
GitHub Actions, Docker y decisiones de costos en GCP.
Exposición a chequeos de calidad de datos o detección de anomalías.

Lo que se ofrece a los primeros 90 días

30 días: lanzar su primer spider, añadir monitoreo y una lista de verificación de QA, solucionar una falla real de principio a fin.

60 días: poseer un conjunto de fuentes; reducir la tasa de fallos y el tiempo medio de reparación; documentar playbooks.

90 días: proponer una mejora de fiabilidad o costo; automatizar un paso de QA repetible.

Por qué Walkway

Impacto real en un producto de datos utilizado por operadores.

Desplegar rápidamente con un equipo pragmático y de bajo ego; ver su trabajo pasar de concepto a producción rápido.

Remoto total con sobreposición EU‑US; recorridos de equipo anuales; viajes cubiertos.

Aprender de ingenieros senior y crecer hacia caminos de ingeniero de datos o de plataforma.

Cómo solicitar

Aplica a este puesto y agrega en tu currículum enlaces a un repositorio o muestra de código; si es posible un ejemplo de un scraper que construiste y qué recopiló.

Si resides en Europa, nos encantaría saber de ti.

Consigue la evaluación confidencial y gratuita de tu currículum.

o arrastra un archivo en formato PDF, DOC, DOCX, ODT o PAGES de hasta 5 MB.

Ciudades destacadas

Empresas destacadas

Vacantes populares