Sobre Creai
En Creai, nos especializamos en aprovechar el poder de la inteligencia artificial y el aprendizaje automático para transformar negocios. Nuestra misión es ayudar a los clientes a reducir costos, aumentar la eficiencia y desbloquear nuevas oportunidades mediante soluciones de IA de vanguardia.
Descripción del Puesto
Como DevOps Engineer, serás el guardián de nuestra infraestructura SaaS, responsable del diseño, implementación y mantenimiento de todos los sistemas que sustentan nuestros productos de IA. En este rol de ownership completo, tendrás la responsabilidad integral de la infraestructura cloud, pipelines CI/CD, monitoreo de sistemas, seguridad de aplicaciones y compliance, sirviendo como el experto técnico que habilita a ambos equipos (AI Virtual Agent y Admin Backoffice) para entregar productos de clase mundial.
Serás el arquitecto de la confiabilidad, escalabilidad y seguridad de nuestra plataforma, diseñando sistemas que soporten tanto aplicaciones de IA intensivas en cómputo como interfaces administrativas con altos estándares de disponibilidad. Tu experiencia será fundamental para mantener la excelencia operacional mientras escalamos rápidamente nuestras capacidades y base de usuarios.
Este Puesto Exige
- Infraestructura y DevOps: Diseñar, implementar y mantener infraestructura escalable en AWS/Azure, incluyendo instancias de cómputo, balanceadores de carga, bases de datos, soluciones de almacenamiento y redes, optimizada tanto para cargas de trabajo de IA como para aplicaciones web empresariales.
- CI/CD y Automatización: Desarrollar y mantener pipelines robustos de integración y despliegue continuo usando GitHub Actions, incluyendo pruebas automatizadas, compilaciones, despliegues blue-green, y estrategias de rollback para múltiples ambientes (desarrollo, staging, producción).
- Containerización y Orquestación: Implementar y gestionar contenedores Docker y clusters Kubernetes, incluyendo mallas de servicios, auto-escalamiento, gestión de recursos y patrones de despliegue para aplicaciones con diferentes perfiles de carga (inferencia LLM vs. aplicaciones web).
- Infraestructura como Código: Desarrollar y mantener toda la infraestructura como código usando Terraform, CloudFormation o herramientas similares, asegurando reproducibilidad, versionado y capacidades de recuperación ante desastres.
- Monitoreo y Observabilidad: Implementar sistemas comprensivos de registro de eventos, métricas y alertas usando herramientas como DataDog, New Relic, Grafana o similares, incluyendo monitoreo de rendimiento de aplicaciones, monitoreo de infraestructura y seguimiento de métricas de negocio.
Soporte y Escalabilidad
- Optimización de Rendimiento: Monitorear y optimizar el rendimiento de sistemas, incluyendo ajuste de bases de datos, estrategias de caché, configuración de CDN, y asignación de recursos para diferentes tipos de cargas de trabajo.
- Recuperación ante Desastres y Continuidad del Negocio: Diseñar e implementar estrategias de respaldo, recuperación ante desastres, y continuidad del negocio, incluyendo planificación de RTO/RPO y pruebas regulares de procedimientos de recuperación.
- Planificación de Capacidad: Analizar patrones de uso, predecir necesidades de crecimiento, y planificar la escalabilidad de recursos para soportar el crecimiento del negocio y picos de demanda.
- Experiencia del Desarrollador: Crear herramientas de autoservicio y documentación para desarrolladores, incluyendo entornos de desarrollo, herramientas de depuración, y automatización que acelere el desarrollo y despliegue.
- Soporte de Guardia: Participar en rotación de guardia con los Tech Area Leaders para resolver incidentes críticos y mantener alta disponibilidad de los sistemas.
- Requisitos Indispensables
- Experiencia en DevOps: Mínimo 4 años de experiencia en roles de DevOps, SRE o Cloud Engineering, con historial demostrado de gestión de infraestructura de producción para aplicaciones web o SaaS.
- Expertise en Cloud: Dominio profundo de al menos una plataforma cloud principal (AWS o Azure), incluyendo compute, storage, networking, databases, y servicios managed, con certificaciones relevantes preferidas.
- CI/CD y Automation: Experiencia extensa con pipelines CI/CD, automation tools, y scripting (Bash, Python, PowerShell), incluyendo testing automation y deployment strategies avanzadas.
- Containerización: Experiencia práctica con Docker y Kubernetes en producción, incluyendo cluster management, service discovery, load balancing, y troubleshooting de containers en escala.
- Security Engineering: Conocimiento sólido de security best practices, network security, encryption, vulnerability management, y experience implementando security controls en entornos cloud.
- Infrastructure as Code: Experiencia con herramientas IaC como Terraform, CloudFormation o similares, incluyendo state management, module development, y governance de infraestructura.
- Monitoreo y Observabilidad: Experiencia implementando y manteniendo stacks de monitoreo completos, incluyendo metrics collection, alerting, log aggregation, y dashboard development.
- Resolución de Problemas: Habilidades excepcionales de troubleshooting y debugging en sistemas distribuidos, incluyendo network issues, performance problems y service outages.
- Comunicación en español e inglés: Capacidad para comunicarse de manera efectiva en ambos idiomas, especialmente para documentación técnica y comunicación de incidentes.
Requisitos Deseables
- Experiencia con AI/ML Infrastructure: Conocimiento de requerimientos específicos para ML workloads, incluyendo GPU compute, model serving, vector databases y optimización para inference latency.
- Advanced Security: Experiencia con security frameworks avanzados, compliance automation (SOC2, ISO27001), security orchestration, y threat detection/response tools.
- Database Administration: Conocimiento de database management y optimization, incluyendo relational databases (PostgreSQL, MySQL) y NoSQL solutions, especialmente para aplicaciones de alta escala.
- Cost Optimization: Experiencia con cloud cost management, resource optimization, y FinOps practices para mantener eficiencia económica en infrastructure spending.
- Disaster Recovery Expertise: Experiencia diseñando e implementación disaster recovery solutions comprehensivas, incluyendo multi-region deployments y business continuity planning.
- Automation y Scripting Avanzado: Habilidades avanzadas en automation, incluyendo configuration management (Ansible, Chef), workflow automation y desarrollo de internal tools.
Beneficios
- 💻 Trabajo 100% remoto con horario alineado a CST.
- 🏖️ PTO ilimitado: Confiamos en que gestionarás tu tiempo de manera efectiva.
- 🎓 Presupuesto anual para desarrollo: Acceso a cursos, certificaciones y conferencias.
- 🛠️ Presupuesto para equipamiento: Configura tu espacio de trabajo remoto ideal.
- 💰 Bonos semestrales por desempeño: Reconocemos y recompensamos tu impacto con incentivos económicos.
- 🩺 Beneficio de salud: Acceso a cobertura médica privada o subsidios para seguro médico.
- 🚀 Oportunidades de crecimiento: Plan de carrera y mentoría con expertos en IA y tecnología.
- 🚀 Ambiente de startup dinámico y flexible: Autonomía para tomar decisiones y proponer ideas, con un enfoque en resultados en lugar de horas trabajadas.
- ⚖️ Balance vida-trabajo: Cultura que prioriza la flexibilidad y el bienestar, permitiéndote gestionar tu tiempo sin sacrificar tu vida personal.
¡Te invitamos a postularte!
Incluso si no cumples con todos los requisitos, valoramos experiencias y perspectivas diversas. Si te apasiona el reclutamiento y quieres crecer en una empresa enfocada en datos e IA, ¡nos encantaría conocerte!