Temario del curso
Introducción, Objetivos y Estrategia de Migración
- Metas del curso, alineación del perfil de los participantes y criterios de éxito
- Enfoques generales de migración y consideraciones de riesgo
- Configuración de espacios de trabajo, repositorios y conjuntos de datos de laboratorio
Día 1 — Fundamentos y Arquitectura de Migración
- Conceptos Lakehouse, panorama de Delta Lake y arquitectura de Databricks
- Diferencias entre SMP y MPP y sus implicaciones para la migración
- Diseño Medallion (Bronce→Plata→Oro) y panorama de Unity Catalog
Laboratorio del Día 1 — Traducción de un Procedimiento Almacenado
- Migración práctica de un procedimiento almacenado de ejemplo a un cuaderno
- Mapeo de tablas temporales y cursores a transformaciones DataFrame
- Validación y comparación con la salida original
Día 2 — Delta Lake Avanzado y Carga Incremental
- Transacciones ACID, registros de confirmación, versionamiento y viaje en el tiempo
- Auto Loader, patrones MERGE INTO, actualizaciones e inserciones condicionales (upserts), y evolución del esquema
- OPTIMIZE, VACUUM, Z-ORDER, particionamiento y ajuste de almacenamiento
Laboratorio del Día 2 — Ingesta Incremental y Optimización
- Implementación de ingestión Auto Loader y flujos de trabajo MERGE
- Aplicación de OPTIMIZE, Z-ORDER y VACUUM; validación de resultados
- Medición de mejoras en rendimiento de lectura/escritura
Día 3 — SQL en Databricks, Rendimiento y Depuración
- Características analíticas de SQL: funciones de ventana, funciones de orden superior, manejo de JSON/array
- Lectura de la interfaz Spark UI, DAGs, mezclas (shuffles), etapas y tareas, y diagnóstico de cuellos de botella
- Patrones de ajuste de consultas: uniones de difusión, sugerencias, almacenamiento en caché y reducción de volcados (spill)
Laboratorio del Día 3 — Refactorización SQL y Ajuste de Rendimiento
- Refactorizar un proceso SQL pesado a Spark SQL optimizado
- Usar trazas de la interfaz Spark UI para identificar y solucionar problemas de sesgo y mezcla
- Benchmark antes/después y documentación de pasos de ajuste
Día 4 — PySpark Táctico: Reemplazo de Lógica Procedural
- Modelo de ejecución de Spark: controlador, ejecutores, evaluación perezosa y estrategias de particionamiento
- Transformar bucles y cursores en operaciones vectorizadas DataFrame
- Modularización, UDFs/pandas UDFs, widgets y bibliotecas reutilizables
Laboratorio del Día 4 — Refactorización de Scripts Procedurales
- Refactorizar un script ETL procedural a cuadernos PySpark modulares
- Introducir parametrización, pruebas estilo unidad y funciones reutilizables
- Revisión de código y aplicación de una lista de verificación de mejores prácticas
Día 5 — Orquestación, Pipeline de Extremo a Extremo y Mejores Prácticas
- Workflows de Databricks: diseño de trabajos, dependencias de tareas, desencadenadores y manejo de errores
- Diseño de pipelines Medallion incrementales con reglas de calidad y validación del esquema
- Integración con Git (GitHub/Azure DevOps), CI y estrategias de pruebas para lógica PySpark
Laboratorio del Día 5 — Construir un Pipeline Completo de Extremo a Extremo
- Ensamblar pipeline Bronce→Plata→Oro orquestado con Workflows
- Implementar registro, auditoría, reintentos y validaciones automatizadas
- Ejecutar pipeline completo, validar salidas y preparar notas de implementación
Operacionalización, Gobernanza y Preparación para Producción
- Mejores prácticas de gobernanza, linaje y controles de acceso con Unity Catalog
- Costos, dimensionamiento de clústeres, escalado automático y patrones de concurrencia de trabajos
- Listas de verificación de implementación, estrategias de reversión y creación de runbooks
Revisión Final, Transferencia de Conocimientos y Pasos Siguientes
- Presentaciones de los participantes sobre su trabajo de migración y lecciones aprendidas
- Análisis de brechas, actividades recomendadas para el seguimiento y entrega de materiales de capacitación
- Referencias, rutas de aprendizaje adicionales y opciones de soporte
Requerimientos
- Comprensión de conceptos de ingeniería de datos
- Experiencia con SQL y procedimientos almacenados (Synapse / SQL Server)
- Familiaridad con conceptos de orquestación ETL (ADF u otros similares)
Audiencia
- Gerentes tecnológicos con experiencia en ingeniería de datos
- Ingenieros de datos que transitan lógica OLAP procedural a patrones Lakehouse
- Ingenieros de plataforma responsables de la adopción de Databricks
Testimonios (1)
Todos los temas que abarca, aunque muchos fueron muy rápidos, nos da una idea de lo que necesitaremos ahondar. Además me gustó que pudimos hacer practicas, aunque insisto, creo que el curso amerita mas.