Curso de Spark para Desarrolladores
OBJETIVO:
Este curso presentará Apache Spark . Los estudiantes aprenderán cómo Spark encaja en el ecosistema de Big Data y cómo usar Spark para el análisis de datos. El curso cubre el shell de Spark para análisis de datos interactivos, componentes internos de Spark, API de Spark, Spark SQL , transmisión de Spark y aprendizaje automático y graphX.
AUDIENCIA
Desarrolladores / Analistas de datos
Programa del Curso
-
Imprimación Scala
Una introducción rápida a Scala
Labs : Conociendo Scala
Conceptos básicos de Spark
Antecedentes e historia
Spark y Hadoop
Conceptos y arquitectura de Spark
Ecosistema Spark (núcleo, spark sql, mlib, streaming)
Labs: Instalación y ejecución de Spark
Primer vistazo a Spark
Ejecución de Spark en modo local
Interfaz de usuario web de Spark
Cáscara de chispa
Análisis del conjunto de datos – parte 1
Inspección de RDD
Laboratorios: Exploración de Spark shell
Informes de desarrollo remoto
Conceptos de RDDs
Particiones
Operaciones / transformaciones RDD
Tipos de RDD
RDD de par clave-valor
MapReduce en RDD
Almacenamiento en caché y persistencia
Laboratorios: creación e inspección de RDD; Almacenamiento en caché de RDD
Programación de la API de Spark
Introducción a la API de Spark / API de RDD
Envío del primer programa a Spark
Depuración / registro
Propiedades de configuración
Laboratorios: Programación en la API de Spark, Envío de trabajos
Chispa SQL
SQL Soporte en Spark
Marcos de datos
Definición de tablas e importación de conjuntos de datos
Consulta de marcos de datos mediante SQL
Formatos de almacenamiento : JSON / Parquet
Labs : Creación y consulta de marcos de datos; Evaluación de formatos de datos
MLlib
Introducción a MLlib
Algoritmos de MLlib
Labs : Escritura de aplicaciones MLib
GraphX (en inglés)
Información general sobre la biblioteca GraphX
API de GraphX
Labs: Procesamiento de datos de gráficos mediante Spark
Transmisión de chispas
Información general sobre el streaming
Evaluación de plataformas de streaming
Operaciones de streaming
Operaciones de ventana corredera
Laboratorios: Escritura de aplicaciones de streaming de Spark
Spark y Hadoop
Introducción a Hadoop (HDFS / YARN)
Arquitectura de Hadoop + Spark
Ejecución de Spark en Hadoop YARN
Procesamiento de archivos HDFS con Spark
Rendimiento y ajuste de Spark
Variables de difusión
Acumuladores
Gestión de memoria y almacenamiento en caché
Operaciones de Spark
Implementación de Spark en producción
Plantillas de implementación de ejemplo
Configuraciones
Monitorización
Solución de problemas
Requerimientos
REQUISITOS PREVIOS
familiaridad con el lenguaje Java / Scala / Python (nuestros laboratorios en Scala y Python) Comprensión básica del entorno de desarrollo de Linux (navegación por la línea de comandos / edición de archivos usando VI o nano)
Los cursos de formación abiertos requieren más de 5 participantes.
Curso de Spark para Desarrolladores - Booking
Curso de Spark para Desarrolladores - Enquiry
Spark para Desarrolladores - Consulta de consultoría
Consulta de consultoría
Testimonios (7)
La combinación de teoría y práctica con herramientas como databricks
Graciela Saud - Servicio de Impuestos Internos
Curso - Spark for Developers
Realizar ejercicios similares de diferentes maneras realmente ayuda a entender lo que cada componente (Hadoop/Spark, independiente/cluster) puede hacer por sí solo y en conjunto. Me dio ideas sobre cómo debería probar mi aplicación en mi máquina local cuando desarrollo versus cuando se implementa en un cluster.
Thomas Carcaud - IT Frankfurt GmbH
Curso - Spark for Developers
Traducción Automática
Ajay fue muy amistoso, servicial y también conocedor sobre el tema que estaba discutiendo.
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
Curso - Spark for Developers
Traducción Automática
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
Curso - Spark for Developers
Traducción Automática
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
Curso - Spark for Developers
Traducción Automática
We know a lot more about the whole environment.
John Kidd
Curso - Spark for Developers
Traducción Automática
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.
Kieran Mac Kenna
Curso - Spark for Developers
Traducción Automática
Próximos cursos
Cursos Relacionados
Inteligencia Artificial - La Materia más Aplicada - Análisis de Datos + AI Distribuido + PNL
21 HorasEste curso está dirigido a desarrolladores y científicos de datos que quieran comprender e implementar la IA en sus aplicaciones. Se presta especial atención al análisis de datos, la inteligencia artificial distribuida y el procesamiento del lenguaje natural.
Big Data Analytics in Health
21 HorasEl análisis de Big Data implica el proceso de examinar grandes cantidades de conjuntos de datos variados para descubrir correlaciones, patrones ocultos y otras ideas útiles.
La industria de la salud tiene cantidades masivas de datos clínicos y médicos heterogéneos complejos. La aplicación de análisis de big data en datos de salud presenta un enorme potencial para obtener información para mejorar la prestación de servicios de salud. Sin embargo, la magnitud de estos conjuntos de datos plantea grandes desafíos en los análisis y aplicaciones prácticas en un entorno clínico.
En esta capacitación en vivo (remota) dirigida por un instructor, los participantes aprenderán cómo realizar análisis de big data en salud a medida que realizan una serie de ejercicios prácticos de laboratorio en vivo.
Al final de esta capacitación, los participantes podrán:
- Instale y configure herramientas de análisis de big data como Hadoop MapReduce y Spark
- Comprender las características de los datos médicos.
- Aplicar técnicas de big data para manejar datos médicos.
- Estudiar los sistemas y algoritmos de big data en el contexto de las aplicaciones de salud.
Audiencia
- Desarrolladores
- Científicos de datos
Formato del curso
- Conferencia en parte, discusión en parte, ejercicios y práctica práctica.
Nota
- Para solicitar una capacitación personalizada para este curso, contáctenos para organizarlo.
Introducción a Graph Computing
28 HorasEn esta capacitación en vivo dirigida por un instructor en Venezuela, los participantes aprenderán sobre las ofertas tecnológicas y los enfoques de implementación para el procesamiento de datos de gráficos. El objetivo es identificar objetos del mundo real, sus características y relaciones, luego modelar estas relaciones y procesarlas como datos utilizando un enfoque Graph Computing (también conocido como análisis de grafos). Comenzamos con una visión general amplia y nos limitamos a herramientas específicas a medida que avanzamos a través de una serie de estudios de casos, ejercicios prácticos e implementaciones en vivo.
Al final de esta formación, los participantes serán capaces de:
- Comprenda cómo se conservan y atraviesan los datos de los gráficos.
- Seleccione el mejor marco para una tarea determinada (desde bases de datos de grafos hasta marcos de procesamiento por lotes).
- Implemente Hadoop, Spark, GraphX y Pregel para llevar a cabo el cálculo de grafos en muchas máquinas en paralelo.
- Vea problemas de big data del mundo real en términos de gráficos, procesos y recorridos.
Hadoop and Spark for Administrators
35 HorasEsta capacitación en vivo dirigida por un instructor en Venezuela (en línea o presencial) está dirigida a administradores de sistemas que desean aprender a configurar, implementar y administrar Hadoop clústeres dentro de su organización.
Al final de esta formación, los participantes serán capaces de:
- Instale y configure Apache Hadoop.
- Comprenda los cuatro componentes principales del ecosistema Hadoop: HDFS, MapReduce, YARN y Hadoop Common.
- Utilice Hadoop Sistema de archivos distribuido (HDFS) para escalar un clúster a cientos o miles de nodos.
- Configure HDFS para que funcione como motor de almacenamiento para implementaciones de Spark locales.
- Configure Spark para acceder a soluciones de almacenamiento alternativas, como Amazon S3, y NoSQL sistemas de bases de datos como Redis, Elasticsearch, Couchbase, Aerospike, etc.
- Lleve a cabo tareas administrativas como el aprovisionamiento, la gestión, la supervisión y la seguridad de un clúster Apache Hadoop.
Hortonworks Data Platform (HDP) para Administradores
21 HorasEsta capacitación en vivo dirigida por un instructor en Venezuela (en línea o presencial) presenta Hortonworks Data Platform (HDP) y guía a los participantes a través de la implementación de la solución Spark + Hadoop.
Al final de esta formación, los participantes serán capaces de:
- Utilice Hortonworks para ejecutar Hadoop de forma fiable a gran escala.
- Unifique las capacidades de seguridad, gobernanza y operaciones de Hadoop con los flujos de trabajo analíticos ágiles de Spark.
- Utilice Hortonworks para investigar, validar, certificar y dar soporte a cada uno de los componentes de un proyecto de Spark.
- Procese diferentes tipos de datos, incluidos los estructurados, no estructurados, en movimiento y en reposo.
Una introducción práctica al procesamiento de flujo
21 HorasEn esta capacitación en vivo dirigida por un instructor en Venezuela (presencial o remoto), los participantes aprenderán cómo configurar e integrar diferentes marcos Stream Processing con los sistemas de almacenamiento de big data existentes y las aplicaciones de software y microservicios relacionados.
Al final de esta formación, los participantes serán capaces de:
- Instale y configure diferentes marcos Stream Processing, como Spark Streaming y Kafka Streaming.
- Comprender y seleccionar el marco más adecuado para el trabajo.
- Procesamiento de datos de forma continua, simultánea y registro por registro.
- Integre Stream Processing soluciones con bases de datos, almacenes de datos, lagos de datos, etc. existentes.
- Integre la biblioteca de procesamiento de flujos más adecuada con aplicaciones empresariales y microservicios.
SMACK Stack for Data Science
14 HorasEsta capacitación en vivo dirigida por un instructor en Venezuela (en línea o en el sitio) está dirigida a científicos de datos que desean utilizar la pila SMACK para crear plataformas de procesamiento de datos para soluciones de big data.
Al final de esta capacitación, los participantes serán capaces de:
- Implemente una arquitectura de canalización de datos para procesar big data.
- Desarrollar una infraestructura de clúster con Apache, Mesos y Docker.
- Analice los datos con Spark y Scala.
- Gestione datos no estructurados con Apache Cassandra.
Apache Spark Fundamentals
21 HorasEsta capacitación en vivo dirigida por un instructor en Venezuela (en línea o en el sitio) está dirigida a ingenieros que desean configurar e implementar Apache Spark un sistema para procesar grandes cantidades de datos.
Al final de esta capacitación, los participantes serán capaces de:
- Instale y configure Apache Spark.
- Procese y analice rápidamente conjuntos de datos muy grandes.
- Comprenda la diferencia entre Apache Spark y Hadoop MapReduce y cuándo usar cuál.
- Integre Apache Spark con otras herramientas de aprendizaje automático.
Administration of Apache Spark
35 HorasEsta formación en directo dirigida por un instructor en Venezuela (en línea o in situ) está dirigida a administradores de sistemas de nivel principiante a intermedio que deseen implementar, mantener y optimizar clústeres de Spark.
Al final de esta capacitación, los participantes serán capaces de:
- Instale y configure Apache Spark en varios entornos.
- Administre los recursos del clúster y supervise las aplicaciones de Spark.
- Optimice el rendimiento de los clústeres de Spark.
- Implemente medidas de seguridad y garantice una alta disponibilidad.
- Depurar y solucionar problemas comunes de Spark.
Apache Spark in the Cloud
21 HorasLa curva de aprendizaje de Apache Spark está aumentando lentamente al principio, necesita mucho esfuerzo para obtener el primer retorno. Este curso tiene como objetivo saltar a través de la primera parte difícil. Después de tomar este curso, los participantes comprenderán los conceptos básicos de Apache Spark , diferenciarán claramente RDD de DataFrame, aprenderán Python y Scala API, comprenderán ejecutores y tareas, etc. Además, siguiendo las mejores prácticas, este curso se enfoca fuertemente en implementación en la nube, Databricks y AWS. Los estudiantes también comprenderán las diferencias entre AWS EMR y AWS Glue, uno de los últimos servicios Spark de AWS.
AUDIENCIA:
Ingeniero de Datos, DevOps , Científico de Datos
Scaling Data Pipelines with Spark NLP
14 HorasEsta capacitación en vivo dirigida por un instructor en Venezuela (en línea o presencial) está dirigida a científicos de datos y desarrolladores que deseen utilizar Spark NLP, construido sobre Apache Spark, para desarrollar, implementar y escalar modelos y tuberías de procesamiento de texto en lenguaje natural.
Al final de esta formación, los participantes serán capaces de:
- Configure el entorno de desarrollo necesario para comenzar a crear canalizaciones de NLP con Spark NLP.
- Comprender las características, la arquitectura y los beneficios del uso de Spark NLP.
- Utilice los modelos previamente entrenados disponibles en Spark NLP para implementar el procesamiento de texto.
- Aprenda a crear, entrenar y escalar modelos Spark NLP para proyectos de producción.
- Aplique la clasificación, la inferencia y el análisis de sentimientos en casos de uso del mundo real (datos clínicos, información sobre el comportamiento de los clientes, etcétera).
Python y Spark para Big Data (PySpark)
21 HorasEn esta capacitación en vivo dirigida por un instructor en Venezuela, los participantes aprenderán a usar Python y Spark juntos para analizar big data mientras trabajan en ejercicios prácticos.
Al final de esta formación, los participantes serán capaces de:
- Aprenda a usar Spark con Python para analizar Big Data.
- Trabaja en ejercicios que imiten casos del mundo real.
- Utilice diferentes herramientas y técnicas para el análisis de big data utilizando PySpark.
Python, Spark, and Hadoop for Big Data
21 HorasEsta capacitación en vivo dirigida por un instructor en Venezuela (en línea o presencial) está dirigida a desarrolladores que desean usar e integrar Spark, Hadoop y Python para procesar, analizar y transformar conjuntos de datos grandes y complejos.
Al final de esta formación, los participantes serán capaces de:
- Configure el entorno necesario para empezar a procesar macrodatos con Spark, Hadoop y Python.
- Comprender las características, los componentes principales y la arquitectura de Spark y Hadoop.
- Aprenda a integrar Spark, Hadoop y Python para el procesamiento de big data.
- Explore las herramientas del ecosistema de Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka y Flume).
- Cree sistemas de recomendación de filtrado colaborativo similares a Netflix, YouTube, Amazon, Spotify y Google.
- Utilice Apache Mahout para escalar los algoritmos de aprendizaje automático.
Apache Spark SQL
7 Horas Spark SQL es Apache Spark módulo de Apache Spark para trabajar con datos estructurados y no estructurados. Spark SQL proporciona información sobre la estructura de los datos, así como el cálculo que se realiza. Esta información se puede usar para realizar optimizaciones. Dos usos comunes para Spark SQL son:
- para ejecutar consultas SQL .
- para leer datos de una instalación de Hive existente.
En esta capacitación en vivo dirigida por un instructor (en el sitio o remota), los participantes aprenderán cómo analizar varios tipos de conjuntos de datos usando Spark SQL .
Al final de esta capacitación, los participantes podrán:
- Instalar y configurar Spark SQL .
- Realizar análisis de datos usando Spark SQL .
- Consultar conjuntos de datos en diferentes formatos.
- Visualizar datos y resultados de consultas.
Formato del curso
- Conferencia interactiva y discusión.
- Muchos ejercicios y práctica.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de personalización del curso
- Para solicitar una capacitación personalizada para este curso, contáctenos para organizarlo.
Apache Spark MLlib
35 HorasMLlib es la biblioteca de aprendizaje automático (ML) de Spark. Su objetivo es hacer que el aprendizaje automático práctico sea escalable y fácil. Consta de algoritmos y utilidades de aprendizaje comunes, como clasificación, regresión, agrupación, filtrado colaborativo, reducción de dimensionalidad, así como primitivas de optimización de nivel inferior y API de canalización de nivel superior.
Se divide en dos paquetes:
-
spark.mllib contiene la API original creada sobre RDD.
-
spark.ml proporciona una API de nivel superior basada en DataFrames para construir canalizaciones de ML.
Audiencia
Este curso está dirigido a ingenieros y desarrolladores que buscan utilizar una biblioteca de máquinas incorporada para Apache Spark