Integración de Big Data con Talend
Talend Open Studio para Big Data es una herramienta ETL de código abierto para procesar grandes volúmenes de datos. Incluye un entorno de desarrollo para interactuar con fuentes y destinos de Big Data, y ejecutar trabajos sin necesidad de escribir código.
Esta formación en vivo impartida por un instructor (en línea o presencial) está dirigida a personas técnicas que deseen implementar Talend Open Studio para Big Data con el objetivo de simplificar el proceso de lectura y análisis de grandes datos.
Al finalizar esta formación, los participantes podrán:
- Instalar y configurar Talend Open Studio para Big Data.
- Conectarse con sistemas de Big Data como Cloudera, HortonWorks, MapR, Amazon EMR y Apache.
- Comprender y configurar los componentes y conectores de Big Data de Open Studio.
- Configurar parámetros para generar automáticamente código MapReduce.
- Utilizar la interfaz de arrastrar y soltar de Open Studio para ejecutar trabajos de Hadoop.
- Crear prototipos de tuberías de Big Data.
- Automatizar proyectos de integración de Big Data.
Formato del curso
- Clase interactiva y discusión.
- Numerous ejercicios y práctica.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de personalización del curso
- Para solicitar una formación personalizada para este curso, contáctenos para coordinarlo.
Temario del curso
Introducción
Descripción general de las características y arquitectura de "Open Studio for Big Data"
Configuración de Open Studio para Big Data
Navegación por la interfaz de usuario (UI)
Comprensión de los componentes y conectores de Big Data
Conexión a un clúster de Hadoop
Lectura y escritura de datos
Procesamiento de datos con Hive y MapReduce
Análisis de los resultados
Mejora de la calidad de Big Data
Construcción de una tubería de Big Data
Gestión de usuarios, grupos, roles y proyectos
Implementación de Open Studio en producción
Monitoreo de Open Studio
Resolución de problemas
Resumen y conclusión
Requerimientos
- Comprensión de bases de datos relacionales
- Comprensión de almacenamiento de datos (data warehousing)
- Comprensión de los conceptos ETL (Extraer, Transformar, Cargar)
Audiencia objetivo
- Profesionales de inteligencia empresarial
- Profesionales de bases de datos
- Desarrolladores SQL
- Desarrolladores ETL
- Arquitectos de soluciones
- Arquitectos de datos
- Profesionales de almacenamiento de datos (data warehousing)
- Administradores e integradores de sistemas
Los cursos públicos requieren más de 5 participantes.
Integración de Big Data con Talend - Reserva
Integración de Big Data con Talend - Consulta
Integración de Big Data con Talend - Solicitud de consultoría
Testimonios (1)
Ejercicios prácticos. La clase debería haber durado 5 días, pero los 3 días fueron útiles para aclarar muchas de las preguntas que tenía al trabajar con NiFi.
James - BHG Financial
Curso - Apache NiFi for Administrators
Traducción Automática
Próximos cursos
Cursos Relacionados
Apache Iceberg Avanzado
21 HorasEsta formación en vivo impartida por un instructor en Venezuela (en línea o presencial) está dirigida a profesionales de datos de nivel avanzado que desean optimizar sus flujos de trabajo de procesamiento de datos, garantizar la integridad de los datos e implementar soluciones robustas de lakehouse capaces de manejar las complejidades de las aplicaciones modernas de big data.
Al finalizar esta formación, los participantes serán capaces de:
- Obtener una comprensión profunda de la arquitectura de Iceberg, incluida la gestión de metadatos y la estructura de archivos.
- Configurar Iceberg para lograr un rendimiento óptimo en diversos entornos e integrarlo con múltiples motores de procesamiento de datos.
- Gestionar tablas Iceberg a gran escala, realizar cambios complejos de esquema y manejar la evolución de las particiones.
- Dominar técnicas para optimizar el rendimiento de las consultas y la eficiencia de los escaneos de datos en conjuntos grandes de datos.
- Implementar mecanismos para garantizar la consistencia de los datos, gestionar garantías transaccionales y manejar fallos en entornos distribuidos.
Fundamentos de Apache Iceberg
14 HorasEsta formación práctica impartida por un instructor en <ubic> (en línea o presencial) está dirigida a profesionales de datos de nivel principiante que desean adquirir los conocimientos y habilidades necesarios para utilizar eficazmente Apache Iceberg en la gestión de conjuntos de datos a gran escala, garantizar la integridad de los datos y optimizar los flujos de procesamiento de datos.
Al finalizar esta formación, los participantes serán capaces de:
- Obtener una comprensión exhaustiva de la arquitectura, características y beneficios de Apache Iceberg.
- Conocer los formatos de tabla, la partición, la evolución del esquema y las capacidades de viaje en el tiempo.
- Instalar y configurar Apache Iceberg en distintos entornos.
- Crear, gestionar y manipular tablas de Iceberg.
- Comprender el proceso de migración de datos desde otros formatos de tabla hacia Iceberg.
Análisis de Big Data con Google Colab y Apache Spark
14 HorasEsta formación en vivo, impartida por un instructor en Venezuela (en línea o presencial), está dirigida a científicos de datos e ingenieros de nivel intermedio que desean utilizar Google Colab y Apache Spark para el procesamiento y análisis de grandes volúmenes de información.
Al finalizar esta capacitación, los participantes podrán:
- Configurar un entorno de Big Data utilizando Google Colab y Spark.
- Procesar y analizar grandes conjuntos de datos de forma eficiente con Apache Spark.
- Visualizar big data en un entorno colaborativo.
- Integrar Apache Spark con herramientas basadas en la nube.
Apache NiFi para administradores
21 HorasApache NiFi es una plataforma de integración de datos y procesamiento de eventos basada en flujos, de código abierto. Permite el enrutamiento automatizado en tiempo real, la transformación y la mediación del sistema entre diversos entornos, cuenta con una interfaz gráfica web y ofrece un control detallado.
Esta formación práctica impartida por un instructor (presencial o remota) está dirigida a administradores e ingenieros de nivel intermedio que deseen implementar, gestionar, asegurar y optimizar flujos de datos de NiFi en entornos de producción.
Al finalizar esta formación, los participantes serán capaces de:
- Instalar, configurar y mantener clústeres de Apache NiFi.
- Diseñar y gestionar flujos de datos desde diversas fuentes y destinos.
- Implementar lógica de automatización, enrutamiento y transformación de los flujos.
- Optimizar el rendimiento, supervisar las operaciones y solucionar problemas.
Formato del curso
- Conferencias interactivas con discusión sobre arquitectura en el mundo real.
- Prácticas manuales: construcción, implementación y gestión de flujos.
- Ejercicios basados en escenarios en un entorno de laboratorio en vivo.
Opciones de personalización del curso
- Para solicitar una formación personalizada para este curso, póngase en contacto con nosotros para organizarla.
PySpark y Aprendizaje Automático
21 HorasEsta formación ofrece una introducción práctica a la construcción de flujos de trabajo escalables para el procesamiento de datos y el Aprendizaje Automático utilizando PySpark. Los participantes aprenderán cómo opera Apache Spark dentro de los ecosistemas modernos de Big Data y cómo procesar eficientemente grandes conjuntos de datos aplicando principios de computación distribuida.
Fundamentos de Apache Spark
21 HorasEsta formación en vivo impartida por un instructor en Venezuela (en línea o presencial) está dirigida a ingenieros que deseen configurar e implementar un sistema Apache Spark para procesar grandes volúmenes de datos.
Al finalizar esta formación, los participantes podrán:
- Instalar y configurar Apache Spark.
- Procesar y analizar conjuntos de datos muy grandes con rapidez.
- Comprender la diferencia entre Apache Spark y Hadoop MapReduce, así como cuándo utilizar cada uno.
- Integrar Apache Spark con otras herramientas de aprendizaje automático.
Administración de Apache Spark
35 HorasEsta formación en vivo impartida por un instructor en Venezuela (en línea o presencial) está dirigida a administradores de sistemas de nivel principiante e intermedio que deseen desplegar, mantener y optimizar clústeres de Spark.
Al finalizar esta formación, los participantes serán capaces de:
- Instalar y configurar Apache Spark en diversos entornos.
- Gestionar los recursos del clúster y supervisar las aplicaciones de Spark.
- Optimizar el rendimiento de los clústeres de Spark.
- Implementar medidas de seguridad y garantizar la alta disponibilidad.
- Depurar y resolver problemas comunes de Spark.
Apache Spark en la nube
21 HorasLa curva de aprendizaje de Apache Spark es lenta al principio, y se requiere un gran esfuerzo para obtener los primeros resultados. Este curso tiene como objetivo superar esa primera etapa difícil. Después de completar este curso, los participantes comprenderán los fundamentos de Apache Spark, diferenciarán claramente entre RDD y DataFrame, aprenderán las API de Python y Scala, entenderán los conceptos de ejecutores y tareas, entre otros. Además, siguiendo las mejores prácticas, este curso se enfoca fuertemente en el despliegue en la nube, Databricks y AWS. Los estudiantes también comprenderán las diferencias entre AWS EMR y AWS Glue, uno de los servicios Spark más recientes de AWS.
PÚBLICO OBJETIVO:
Ingenieros de Datos, especialistas en DevOps, Científicos de Datos
Python y Spark para Big Data (PySpark)
21 HorasEn este taller en vivo con instrucción directa en Venezuela, los participantes aprenderán cómo utilizar Python y Spark juntos para analizar grandes datos mientras realizan ejercicios prácticos.
Al finalizar esta formación, los participantes podrán:
- Aprender a usar Spark con Python para analizar Big Data.
- Realizar ejercicios que simulan casos del mundo real.
- Utilizar diversas herramientas y técnicas para el análisis de grandes datos mediante PySpark.
Python, Spark y Hadoop para Big Data
21 HorasEsta formación en vivo con instructor en Venezuela (en línea o presencial) está dirigida a desarrolladores que deseen utilizar e integrar Spark, Hadoop y Python para procesar, analizar y transformar grandes conjuntos de datos complejos.
Al finalizar esta formación, los participantes podrán:
- Configurar el entorno necesario para comenzar a procesar big data con Spark, Hadoop y Python.
- Comprender las características, componentes principales y arquitectura de Spark y Hadoop.
- Aprender cómo integrar Spark, Hadoop y Python para el procesamiento de big data.
- Explorar las herramientas del ecosistema de Spark (Spark MLlib, Spark Streaming, Kafka, Sqoop y Flume).
- Construir sistemas de recomendación basados en filtrado colaborativo similares a los de Netflix, YouTube, Amazon, Spotify y Google.
- Utilizar Apache Mahout para escalar algoritmos de aprendizaje automático.
Stratio: Módulos Rocket e Intelligence con PySpark
14 HorasStratio es una plataforma centrada en los datos que integra big data, inteligencia artificial y gobernanza en una única solución. Sus módulos Rocket e Intelligence permiten explorar, transformar y analizar datos de manera avanzada en entornos empresariales.
Esta formación presencial impartida por un instructor (en línea o en sitio) está dirigida a profesionales de datos de nivel intermedio que desean utilizar los módulos Rocket e Intelligence de Stratio de forma efectiva con PySpark, centrándose en estructuras de bucle, funciones definidas por el usuario y lógica avanzada de datos.
Al finalizar esta formación, los participantes serán capaces de:
- Navegar y trabajar dentro de la plataforma Stratio utilizando los módulos Rocket e Intelligence.
- Aplicar PySpark en el contexto de ingesta, transformación y análisis de datos.
- Utilizar bucles y lógica condicional para controlar flujos de trabajo de datos y tareas de ingeniería de características.
- Crear y gestionar funciones definidas por el usuario (UDF) para operaciones de datos reutilizables en PySpark.
Formato del curso
- Conferencia interactiva y discusión.
- Bastantes ejercicios y práctica.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de personalización del curso
- Para solicitar una formación personalizada para este curso, por favor contáctenos para coordinarla.
Talend Administration Center (TAC)
14 HorasEsta formación en vivo impartida por un instructor en Venezuela (en línea o presencial) está dirigida a administradores de sistemas, científicos de datos y analistas de negocio que deseen configurar Talend Administration Center para implementar y administrar los roles y tareas de la organización.
Al finalizar esta formación, los participantes podrán:
- Instalar y configurar Talend Administration Center.
- Comprender e implementar los fundamentos de gestión de Talend.
- Crear, implementar y ejecutar proyectos empresariales o tareas en Talend.
- Vigilar la seguridad de los conjuntos de datos y desarrollar rutinas empresariales basadas en el marco de trabajo de TAC.
- Obtener una comprensión más amplia de las aplicaciones de big data.
Talend Data Stewardship
14 HorasEsta formación en vivo con instructor en Venezuela (en línea o presencial) está dirigida a analistas de datos de nivel principiante e intermedio que desean profundizar su comprensión y habilidades para gestionar y mejorar la calidad de los datos utilizando Talend Data Stewardship.
Al finalizar esta formación, los participantes podrán:
- Comprender en profundidad el papel del data stewardship (gobernancia de datos) en el mantenimiento de la calidad de los datos.
- Utilizar Talend Data Stewardship para gestionar las tareas de calidad de los datos.
- Crear, asignar y gestionar tareas dentro de Talend Data Stewardship, incluida la personalización del flujo de trabajo.
- Utilizar las capacidades de informes y monitoreo de la herramienta para seguir el progreso de la calidad de los datos y las iniciativas de data stewardship.
Talend Open Studio para ESB
21 HorasEn este entrenamiento vivo guiado por un instructor en Venezuela, los participantes aprenderán cómo usar Talend Open Studio para ESB para crear, conectar, mediar y gestionar servicios y sus interacciones.
Al finalizar este entrenamiento, los participantes serán capaces de
- Integrar, mejorar y entregar tecnologías ESB como paquetes únicos en varios entornos de implementación.
- Comprender y utilizar los componentes más utilizados de Talend Open Studio.
- Integrar cualquier aplicación, base de datos, API o servicios web.
- Integrar fluidamente sistemas y aplicaciones heterogéneas.
- Incorporar bibliotecas de código Java existentes para extender proyectos.
- Aprovechar los componentes y el código de la comunidad para extender proyectos.
- Integrar rápidamente sistemas, aplicaciones y fuentes de datos dentro de un entorno Eclipse con arrastrar y soltar.
- Reducir el tiempo de desarrollo y los costos de mantenimiento generando código optimizado y reutilizable.