Programa del Curso

Sección 1: Introducción a Hadoop

  • Historia y conceptos de Hadoop
  • Ecosistema
  • Distribuciones
  • Arquitectura de alto nivel
  • Mitologías sobre Hadoop
  • Desafíos de Hadoop
  • Hardware / Software
  • lab : primera mirada a Hadoop

Sección 2: HDFS

  • Diseño y arquitectura
  • Conceptos (escalado horizontal, replicación, localidad de datos, conciencia del rack)
  • Daemons : Namenode, Secondary namenode, Data node
  • Comunicaciones / latidos cardíacos
  • Integridad de los datos
  • Rutas de lectura y escritura
  • Namenode Alta Disponibilidad (HA), Federación
  • labs : Interacción con HDFS

Sección 3: Mapa Reducir

  • Conceptos y arquitectura
  • Daemons (MRV1): jobtracker / tasktracker
  • Fases: driver, mapper, shuffle / sort, reductor
  • Mapa Reduzca Versión 1 y Versión 2 (YARN)
  • Internos del Mapa Reducir
  • Introducción a Java Map Reduce el programa
  • Laboratorios: Ejecutar un programa MapReduce de ejemplo

Sección 4: Cerdo

  • Cerdo vs java mapa reducir
  • Flujo de trabajo porcino
  • Lengua latina del cerdo
  • ETL con cerdo
  • Transformations & Joins
  • Funciones definidas por el usuario (UDF)
  • Laboratorios: escribir scripts Pig para analizar datos

Sección 5: Colmena

  • Arquitectura y diseño
  • tipos de datos
  • Soporte SQL en Hive
  • Creación de tablas Hive y consultas
  • Particiones
  • Se une
  • Procesamiento de texto
  • Laboratorios: varios laboratorios sobre procesamiento de datos con Hive

Sección 6: HBase

  • Conceptos y arquitectura
  • HBase vs RDBMS vs Cassandra
  • HBase Java API
  • Datos de series temporales en HBase
  • Diseño del esquema
  • labs : Interacción con HBase usando shell;   programación en HBase Java API ; Ejercicio de diseño de esquemas

Requerimientos

  • Cómodo con el lenguaje de programación de Java (la mayoría de los ejercicios de programación están en java)
  • Cómodo en el ambiente de Linux (ser capaz de navegar por la línea de comandos de Linux, editar archivos utilizando vi / nano)

Entorno de laboratorio

Instalación cero : No es necesario instalar el software Hadoop en las máquinas de los estudiantes. Se proporcionará un clúster funcional de Hadoop para los estudiantes.

Los estudiantes necesitarán lo siguiente

  • un cliente SSH (Linux y Mac ya tienen clientes ssh, se recomienda Putty para Windows)
  • un navegador para acceder al clúster, se recomienda Firefox
 28 Horas

Número de participantes


Precio por Participante​

Testimonios (4)

Próximos cursos

Categorías Relacionadas