Fundamentos de Apache Iceberg
Apache Iceberg es un formato de tabla de código abierto para conjuntos de datos a gran escala que aporta la confiabilidad y simplicidad de las tablas SQL a los big data. Fue diseñado para resolver los desafíos de gestionar big data en lagos de datos, lo cual implica con frecuencia manejar esquemas complejos, archivos grandes y diversas fuentes de datos.
Esta formación práctica impartida por un instructor (en línea o presencial) está dirigida a profesionales de datos de nivel principiante que desean adquirir los conocimientos y habilidades necesarios para utilizar eficazmente Apache Iceberg en la gestión de conjuntos de datos a gran escala, garantizar la integridad de los datos y optimizar los flujos de procesamiento de datos.
Al finalizar esta formación, los participantes serán capaces de:
- Obtener una comprensión exhaustiva de la arquitectura, características y beneficios de Apache Iceberg.
- Conocer los formatos de tabla, la partición, la evolución del esquema y las capacidades de viaje en el tiempo.
- Instalar y configurar Apache Iceberg en distintos entornos.
- Crear, gestionar y manipular tablas de Iceberg.
- Comprender el proceso de migración de datos desde otros formatos de tabla hacia Iceberg.
Formato del curso
- Clase interactiva y discusión.
- Numerosos ejercicios y práctica.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de personalización del curso
- Para solicitar una formación personalizada para este curso, póngase en contacto con nosotros para coordinarla.
Temario del curso
Introducción a Apache Iceberg
- Descripción general de Apache Iceberg
- Importancia y casos de uso en la arquitectura de datos moderna
- Características y beneficios clave
Conceptos fundamentales
- Formato y arquitectura de las tablas Iceberg
- Comparación con otros formatos de tabla
- Partición y evolución del esquema
- Viaje en el tiempo y versionado de datos
Configuración de Apache Iceberg
- Instalación y configuración
- Integración de Iceberg con diversos motores de procesamiento de datos
- Configuración de un entorno Iceberg en una máquina local
Operaciones básicas
- Creación y gestión de tablas Iceberg
- Lectura y escritura en tablas Iceberg
- Operaciones CRUD básicas
Migración e integración de datos
- Migración de datos desde Hive y otros sistemas hacia Iceberg
- Integración con herramientas de BI
- Migración de un conjunto de datos de ejemplo a Iceberg
Optimización del rendimiento
- Técnicas de ajuste de rendimiento
- Optimización de consultas y escaneos de datos
- Optimización del rendimiento en Iceberg
Descripción general de características avanzadas
- Evolución de particiones y particionado oculto
- Evolución de tablas y cambios en el esquema
- Características de viaje en el tiempo y reversión
- Implementación de características avanzadas en Iceberg
Resumen y próximos pasos
Requerimientos
- Conocimiento de conceptos como tablas, esquemas, particiones e ingesta de datos
- Conocimientos básicos de SQL
Público objetivo
- Ingenieros de datos
- Arquitectos de datos
- Analistas de datos
- Desarrolladores de software
Los cursos públicos requieren más de 5 participantes.
Fundamentos de Apache Iceberg - Reserva
Fundamentos de Apache Iceberg - Consulta
Fundamentos de Apache Iceberg - Solicitud de consultoría
Testimonios (1)
Ejercicios prácticos. La clase debería haber durado 5 días, pero los 3 días fueron útiles para aclarar muchas de las preguntas que tenía al trabajar con NiFi.
James - BHG Financial
Curso - Apache NiFi for Administrators
Traducción Automática
Próximos cursos
Cursos Relacionados
Apache Iceberg Avanzado
21 HorasEsta formación en vivo impartida por un instructor en Venezuela (en línea o presencial) está dirigida a profesionales de datos de nivel avanzado que desean optimizar sus flujos de trabajo de procesamiento de datos, garantizar la integridad de los datos e implementar soluciones robustas de lakehouse capaces de manejar las complejidades de las aplicaciones modernas de big data.
Al finalizar esta formación, los participantes serán capaces de:
- Obtener una comprensión profunda de la arquitectura de Iceberg, incluida la gestión de metadatos y la estructura de archivos.
- Configurar Iceberg para lograr un rendimiento óptimo en diversos entornos e integrarlo con múltiples motores de procesamiento de datos.
- Gestionar tablas Iceberg a gran escala, realizar cambios complejos de esquema y manejar la evolución de las particiones.
- Dominar técnicas para optimizar el rendimiento de las consultas y la eficiencia de los escaneos de datos en conjuntos grandes de datos.
- Implementar mecanismos para garantizar la consistencia de los datos, gestionar garantías transaccionales y manejar fallos en entornos distribuidos.
Análisis de Big Data con Google Colab y Apache Spark
14 HorasEsta formación en vivo, impartida por un instructor en Venezuela (en línea o presencial), está dirigida a científicos de datos e ingenieros de nivel intermedio que desean utilizar Google Colab y Apache Spark para el procesamiento y análisis de grandes volúmenes de información.
Al finalizar esta capacitación, los participantes podrán:
- Configurar un entorno de Big Data utilizando Google Colab y Spark.
- Procesar y analizar grandes conjuntos de datos de forma eficiente con Apache Spark.
- Visualizar big data en un entorno colaborativo.
- Integrar Apache Spark con herramientas basadas en la nube.
Inteligencia de Negocios de Big Data para Agencias del Gobierno
35 HorasLos avances tecnológicos y el incremento en la cantidad de información están transformando la forma en que se llevan a cabo los negocios en muchas industrias, incluida la gubernamental. Las tasas de generación de datos y archivo digital en el gobierno están en aumento debido al rápido crecimiento de dispositivos móviles y aplicaciones, sensores inteligentes, soluciones de computación en la nube y portales dirigidos al ciudadano. A medida que la información digital se expande y se vuelve más compleja, también lo hacen la gestión, procesamiento, almacenamiento, seguridad y disposición de la información. Nuevas herramientas de captura, búsqueda, descubrimiento y análisis están ayudando a las organizaciones a obtener conocimientos a partir de sus datos no estructurados. El mercado gubernamental está en un punto de inflexión, al darnos cuenta de que la información es un activo estratégico, y el gobierno necesita proteger, aprovechar y analizar tanto la información estructurada como la no estructurada para servir mejor y cumplir con los requisitos de la misión. Mientras los líderes gubernamentales se esfuerzan por evolucionar hacia organizaciones impulsadas por datos para lograr exitosamente la misión, están sentando las bases para correlacionar las dependencias entre eventos, personas, procesos e información.
Las soluciones gubernamentales de alto valor se crearán a partir de una mezcla de las tecnologías más disruptivas:
- Dispositivos móviles y aplicaciones
- Servicios en la nube
- Tecnologías de negocios sociales y redes
- Big Data y analítica
El Big Data es una de las soluciones inteligentes de la industria y permite al gobierno tomar mejores decisiones actuando sobre patrones revelados mediante el análisis de grandes volúmenes de datos — relacionados y no relacionados, estructurados y no estructurados.
Pero lograr estas hazañas requiere mucho más que simplemente acumular cantidades masivas de datos. "Dar sentido a estos grandes volúmenes de Big Data requiere herramientas y tecnologías de vanguardia capaces de analizar y extraer conocimientos útiles de vastas y diversas corrientes de información", escribieron Tom Kalil y Fen Zhao de la Oficina de Política de Ciencia y Tecnología de la Casa Blanca en una publicación en el blog OSTP.
La Casa Blanca dio un paso para ayudar a las agencias a encontrar estas tecnologías cuando estableció la Iniciativa Nacional de Investigación y Desarrollo de Big Data en 2012. La iniciativa incluyó más de $200 millones para sacar el máximo provecho de la explosión de Big Data y las herramientas necesarias para analizarla.
Los desafíos que plantea el Big Data son casi tan abrumadores como su promesa es alentadora. Almacenar datos de manera eficiente es uno de estos desafíos. Como siempre, los presupuestos son ajustados, por lo que las agencias deben minimizar el costo por megabyte del almacenamiento y mantener los datos fácilmente accesibles para que los usuarios puedan obtenerlos cuando quieran y cómo los necesiten. Respaldo grandes cantidades de datos intensifica el desafío.
Analizar los datos eficazmente es otro gran desafío. Muchas agencias emplean herramientas comerciales que les permiten filtrar a través de las montañas de datos, detectando tendencias que pueden ayudarles a operar con mayor eficiencia. (Un estudio reciente de MeriTalk encontró que los ejecutivos de TI federales creen que el Big Data podría ayudar a las agencias a ahorrar más de $500 mil millones mientras también cumplen con los objetivos de la misión.).
Las herramientas de Big Data desarrolladas a medida también están permitiendo a las agencias abordar la necesidad de analizar sus datos. Por ejemplo, el Grupo de Analítica de Datos Computacionales del Laboratorio Nacional de Oak Ridge ha puesto a disposición de otras agencias su sistema de analítica de datos Piranha. El sistema ha ayudado a los investigadores médicos a encontrar un enlace que pueda alertar a los médicos sobre aneurismas aórticos antes de que ocurran. También se utiliza para tareas más rutinarias, como filtrar currículums para conectar candidatos con los gestores de contratación.
Una introducción práctica al análisis de datos y big data - 3 días
21 HorasLos participantes que completen esta formación en vivo y guiada por un instructor en Venezuela adquirirán una comprensión práctica y real de big data, así como de sus tecnologías, metodologías y herramientas relacionadas.
Los participantes tendrán la oportunidad de aplicar estos conocimientos mediante ejercicios prácticos. La interacción grupal y los comentarios del instructor son componentes fundamentales del curso.
El curso comienza con una introducción a los conceptos elementales de big data, avanza hacia los lenguajes de programación y las metodologías utilizadas para realizar análisis de datos. Finalmente, discutimos las herramientas e infraestructuras que permiten el almacenamiento de big data, el procesamiento distribuido y la escalabilidad.
Big Data y Analítica Avanzada
42 HorasBig Data y Analítica Avanzada es la aplicación de técnicas y herramientas sofisticadas para analizar conjuntos de datos grandes y complejos con el fin de obtener información accionable y apoyar la toma de decisiones estratégicas.
Esta formación en vivo impartida por un instructor (en línea o presencial) está dirigida a profesionales avanzados en el manejo de datos que desean aprovechar métodos analíticos de vanguardia y tecnologías big data para análisis predictivos, prescriptivos y en tiempo real.
Al finalizar esta formación, los participantes podrán:
- Diseñar e implementar tuberías de procesamiento de datos a gran escala para datos estructurados y no estructurados.
- Aplicar técnicas avanzadas de aprendizaje automático y aprendizaje profundo a conjuntos masivos de datos.
- Aprovechar marcos de computación distribuida para análisis en tiempo real y transmisión de datos.
- Integrar la analítica big data en sistemas de inteligencia empresarial y toma de decisiones.
Formato del curso
- Clase interactiva y discusión.
- Muchas ejercicios y práctica.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de personalización del curso
- Para solicitar una formación personalizada para este curso, contáctenos para coordinarlo.
Big Data Business Intelligence para análisis de inteligencia criminal
35 HorasEn esta formación en vivo y guiada por un instructor en Venezuela, los participantes aprenderán la mentalidad necesaria para abordar las tecnologías de Big Data, evaluar su impacto sobre los procesos y políticas existentes, e implementar estas tecnologías con el fin de identificar actividades criminales y prevenir la delincuencia. Se examinarán estudios de caso de organizaciones policiales de todo el mundo para obtener perspectivas sobre sus enfoques de adopción, desafíos y resultados.
Al finalizar esta formación, los participantes podrán:
- Combinar la tecnología Big Data con los procesos tradicionales de recopilación de datos para reconstruir una narrativa durante una investigación.
- Implementar soluciones industriales de almacenamiento y procesamiento de Big Data para el análisis de datos.
- Preparar una propuesta para la adopción de las herramientas y procesos más adecuados que permitan un enfoque basado en datos para la investigación criminal.
Apache NiFi para administradores
21 HorasApache NiFi es una plataforma de integración de datos y procesamiento de eventos basada en flujos, de código abierto. Permite el enrutamiento automatizado en tiempo real, la transformación y la mediación del sistema entre diversos entornos, cuenta con una interfaz gráfica web y ofrece un control detallado.
Esta formación práctica impartida por un instructor (presencial o remota) está dirigida a administradores e ingenieros de nivel intermedio que deseen implementar, gestionar, asegurar y optimizar flujos de datos de NiFi en entornos de producción.
Al finalizar esta formación, los participantes serán capaces de:
- Instalar, configurar y mantener clústeres de Apache NiFi.
- Diseñar y gestionar flujos de datos desde diversas fuentes y destinos.
- Implementar lógica de automatización, enrutamiento y transformación de los flujos.
- Optimizar el rendimiento, supervisar las operaciones y solucionar problemas.
Formato del curso
- Conferencias interactivas con discusión sobre arquitectura en el mundo real.
- Prácticas manuales: construcción, implementación y gestión de flujos.
- Ejercicios basados en escenarios en un entorno de laboratorio en vivo.
Opciones de personalización del curso
- Para solicitar una formación personalizada para este curso, póngase en contacto con nosotros para organizarla.
PySpark y Aprendizaje Automático
21 HorasEsta formación ofrece una introducción práctica a la construcción de flujos de trabajo escalables para el procesamiento de datos y el Aprendizaje Automático utilizando PySpark. Los participantes aprenderán cómo opera Apache Spark dentro de los ecosistemas modernos de Big Data y cómo procesar eficientemente grandes conjuntos de datos aplicando principios de computación distribuida.
Fundamentos de Apache Spark
21 HorasEsta formación en vivo impartida por un instructor en Venezuela (en línea o presencial) está dirigida a ingenieros que deseen configurar e implementar un sistema Apache Spark para procesar grandes volúmenes de datos.
Al finalizar esta formación, los participantes podrán:
- Instalar y configurar Apache Spark.
- Procesar y analizar conjuntos de datos muy grandes con rapidez.
- Comprender la diferencia entre Apache Spark y Hadoop MapReduce, así como cuándo utilizar cada uno.
- Integrar Apache Spark con otras herramientas de aprendizaje automático.
Administración de Apache Spark
35 HorasEsta formación en vivo impartida por un instructor en Venezuela (en línea o presencial) está dirigida a administradores de sistemas de nivel principiante e intermedio que deseen desplegar, mantener y optimizar clústeres de Spark.
Al finalizar esta formación, los participantes serán capaces de:
- Instalar y configurar Apache Spark en diversos entornos.
- Gestionar los recursos del clúster y supervisar las aplicaciones de Spark.
- Optimizar el rendimiento de los clústeres de Spark.
- Implementar medidas de seguridad y garantizar la alta disponibilidad.
- Depurar y resolver problemas comunes de Spark.
Apache Spark en la nube
21 HorasLa curva de aprendizaje de Apache Spark es lenta al principio, y se requiere un gran esfuerzo para obtener los primeros resultados. Este curso tiene como objetivo superar esa primera etapa difícil. Después de completar este curso, los participantes comprenderán los fundamentos de Apache Spark, diferenciarán claramente entre RDD y DataFrame, aprenderán las API de Python y Scala, entenderán los conceptos de ejecutores y tareas, entre otros. Además, siguiendo las mejores prácticas, este curso se enfoca fuertemente en el despliegue en la nube, Databricks y AWS. Los estudiantes también comprenderán las diferencias entre AWS EMR y AWS Glue, uno de los servicios Spark más recientes de AWS.
PÚBLICO OBJETIVO:
Ingenieros de Datos, especialistas en DevOps, Científicos de Datos
Python y Spark para Big Data (PySpark)
21 HorasEn este taller en vivo con instrucción directa en Venezuela, los participantes aprenderán cómo utilizar Python y Spark juntos para analizar grandes datos mientras realizan ejercicios prácticos.
Al finalizar esta formación, los participantes podrán:
- Aprender a usar Spark con Python para analizar Big Data.
- Realizar ejercicios que simulan casos del mundo real.
- Utilizar diversas herramientas y técnicas para el análisis de grandes datos mediante PySpark.
Python, Spark y Hadoop para Big Data
21 HorasEsta formación en vivo con instructor en Venezuela (en línea o presencial) está dirigida a desarrolladores que deseen utilizar e integrar Spark, Hadoop y Python para procesar, analizar y transformar grandes conjuntos de datos complejos.
Al finalizar esta formación, los participantes podrán:
- Configurar el entorno necesario para comenzar a procesar big data con Spark, Hadoop y Python.
- Comprender las características, componentes principales y arquitectura de Spark y Hadoop.
- Aprender cómo integrar Spark, Hadoop y Python para el procesamiento de big data.
- Explorar las herramientas del ecosistema de Spark (Spark MLlib, Spark Streaming, Kafka, Sqoop y Flume).
- Construir sistemas de recomendación basados en filtrado colaborativo similares a los de Netflix, YouTube, Amazon, Spotify y Google.
- Utilizar Apache Mahout para escalar algoritmos de aprendizaje automático.
Stratio: Módulos Rocket e Intelligence con PySpark
14 HorasStratio es una plataforma centrada en los datos que integra big data, inteligencia artificial y gobernanza en una única solución. Sus módulos Rocket e Intelligence permiten explorar, transformar y analizar datos de manera avanzada en entornos empresariales.
Esta formación presencial impartida por un instructor (en línea o en sitio) está dirigida a profesionales de datos de nivel intermedio que desean utilizar los módulos Rocket e Intelligence de Stratio de forma efectiva con PySpark, centrándose en estructuras de bucle, funciones definidas por el usuario y lógica avanzada de datos.
Al finalizar esta formación, los participantes serán capaces de:
- Navegar y trabajar dentro de la plataforma Stratio utilizando los módulos Rocket e Intelligence.
- Aplicar PySpark en el contexto de ingesta, transformación y análisis de datos.
- Utilizar bucles y lógica condicional para controlar flujos de trabajo de datos y tareas de ingeniería de características.
- Crear y gestionar funciones definidas por el usuario (UDF) para operaciones de datos reutilizables en PySpark.
Formato del curso
- Conferencia interactiva y discusión.
- Bastantes ejercicios y práctica.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de personalización del curso
- Para solicitar una formación personalizada para este curso, por favor contáctenos para coordinarla.