Ingeniero/a en Ciencia de Datos – Esp. en Modelos de Lenguaje de Gran Escala (LLM)
Objetivo: Diseñar, desarrollar y optimizar herramientas basadas en modelos de lenguaje de gran escala (LLM), priorizando la eficiencia, la escalabilidad y la implementación en entornos locales. Contribuir al avance de proyectos de inteligencia artificial aplicados a la automatización, análisis de datos y mejora de procesos organizativos. Con dependencia del Vicerrectorado para Universidad Digital de la UPM.
Funciones principales
- Desarrollar e integrar aplicaciones y herramientas que aprovechen modelos de lenguaje de gran escala (LLM), con énfasis en soluciones locales (on-premise).
- Optimizar el rendimiento y la eficiencia de los modelos, ajustando hiperparámetros y aplicando técnicas de compresión, cuantización o fine-tuning.
- Diseñar flujos de trabajo de datos para el entrenamiento, ajuste y despliegue de modelos.
- Colaborar con equipos multidisciplinarios para identificar casos de uso y traducir necesidades en soluciones basadas en IA.
- Evaluar y comparar modelos de lenguaje según métricas de desempeño, eficiencia y viabilidad técnica.
- Elaborar documentación técnica y metodológica que garantice la replicabilidad y el mantenimiento de las soluciones desarrolladas.
- Participar en la exploración de nuevas arquitecturas y avances en IA aplicada a modelos generativos.
Requisitos básicos
- Educación: Grado en Ingeniería Informática o equivalente. Máster en Ciencia de Datos, Inteligencia Artificial o áreas afines.
- Experiencia: Mínimo 2 años de experiencia profesional en desarrollo de aplicaciones o investigación aplicada con modelos de lenguaje.
Conocimientos
- Modelos de lenguaje de gran escala (GPT, LLaMA, Mistral, Falcon, etc.).
- Procesamiento de lenguaje natural (NLP) y técnicas de ajuste fino (fine-tuning, LoRA, RAG).
- Optimización y despliegue de modelos en entornos locales y en la nube.
- Bases de datos vectoriales: experiencia con ChromaDB, Pinecone, Milvus o similares (esencial para sistemas RAG eficientes).
- Experiencia con plataformas de visualización de datos y librerías científicas (NumPy, Pandas, Matplotlib).
- Manejo avanzado de entornos Linux y Docker.
Habilidades
- Capacidad analítica, pensamiento crítico, organización, comunicación clara, trabajo en equipo y resolución de problemas complejos.
Idiomas
- Inglés acreditado B2 (comprensión, comunicación oral y escrita); se valorará C1.