Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Programa del Curso
Módulo 1. Introducción a Hadoop
- El Hadoop Sistema de archivos distribuido (HDFS)
- La ruta de lectura y la ruta de escritura
- Administración de metadatos del sistema de archivos
- El nodo de nombre y el nodo de datos
- La alta disponibilidad de Namenode
- Federación de nodos de nombre
- Las herramientas de línea de comandos
- Descripción de la compatibilidad con REST
Módulo 2. Introducción a MapReduce
- Análisis de los datos con Hadoop
- Patrón de asignación y reducción
- Java MapReduce
- Escalado horizontal
- Flujo de datos
- Desarrollo de funciones de combinador
- Ejecución de un trabajo de MapReduce distribuido
Módulo 3. Planificación de un clúster Hadoop
- Elegir una distribución y una versión de Hadoop
- Versiones y características
- Selección de hardware
- Selección de hardware maestro y de trabajo
- Tamaño del clúster
- Selección y preparación del sistema operativo
- Diseño de implementación
- Configuración de usuarios, grupos y privilegios
- Configuración del disco
- Diseño de redes
Módulo 4. Instalación y configuración
- Instalación de Hadoop
- Configuración: Descripción general
- Los archivos de configuración de Hadoop XML
- Variables de entorno y scripts de shell
- Configuración de registro
- Administración de HDFS
- Optimización y ajuste
- Formatear el nodo de nombre
- Creación de un directorio /tmp
- Pensando en la alta disponibilidad de Namenode
- Las opciones de esgrima
- Configuración automática de conmutación por error
- Formatear y arrancar los nodos de nombre
- Federación de nodos de nombre
Módulo 5. Descripción Hadoop de E/S
- Integridad de datos en HDFS
- Descripción de los códecs
- Compresión y divisiones de entrada
- Uso de la compresión en MapReduce
- El mecanismo de serialización
- Estructuras de datos basadas en archivos
- El formato SequenceFile
- Otros formatos de archivo y formatos orientados a columnas
Módulo 6. Desarrollo de una aplicación MapReduce
- La APIde configuración
- Configuración del entorno de desarrollo
- Administración de la configuración
- GenericOptionsParser, Tool y ToolRunner
- Escribir una prueba unitaria con MRUnit
- El mapeador y el reductor
- Ejecución local en datosde prueba
- Probar el controlador
- Ejecución en un clúster
- Empaquetado y lanzamiento de un trabajo
- La interfaz de usuario web de MapReduce
- Ajuste de un trabajo
Módulo 7. Identidad, autenticación y autorización
- Gestión de la identidad
- Kerberos y Hadoop
- Descripción de la autorización
Módulo 8. Recurso Management
- ¿Qué es el recurso Management?
- Cuotas de HDFS
- Programadores de MapReduce
- Anatomía de la ejecución de una aplicación YARN
- Solicitudes de recursos
- Vida útil de la aplicación
- YARN en comparación con MapReduce 1
- Programación en YARN
- Opciones del programador
- Configuración del programador de capacidad
- Configuración del programador justo
- Programación de retrasos
- Equidad dominante de los recursos
Módulo 9. Tipos y formatos de MapReduce
- Tipos de MapReduce
- El trabajo predeterminado de MapReduce
- Definición de los formatos de entrada
- Gestión de divisiones y registros de entrada
- Entrada de texto y entrada binaria
- Gestión de varias entradas
- Database Entrada (y salida)
- Formatos de salida
- Salida de texto y salida binaria
- Gestión de varias salidas
- La salida Database
Módulo 10. Uso de las entidades de MapReduce
- Uso de contadores
- Lectura de contadores incorporados
- Contadores Java definidos por el usuario
- Comprender la clasificación
- Uso de la caché distribuida
Módulo 11. Mantenimiento y solución de problemas de clústeres
- Gestión de Hadoop procesos
- Inicio y detención de procesos con scripts de inicio
- Inicio y detención de procesos manualmente
- Tareas de mantenimiento de HDFS
- Adición de un nodo de datos
- Retirada de un nodo de datos
- Comprobación de la integridad del sistema de archivos con fsck
- Equilibrio de datos de bloque HDFS
- Lidiar con un disco fallido
- Tareasde mantenimiento de MapReduce
- Eliminar un trabajo de MapReduce
- Eliminar una tarea de MapReduce
- Gestión del agotamiento de recursos
Módulo 12. Monitorización
- Las métricas disponibles Hadoop
- El papel de SNMP
- Supervisión del estado
- Comprobaciones a nivel de host
- Comprobaciones de HDFS
- Comprobaciones de MapReduce
Módulo 13. Copia de seguridad y recuperación
- Copia de seguridad de datos
- Copia distribuida (distcp)
- Ingesta de datos en paralelo
- Metadatos de nodo de nombre
21 horas
Testimonios (1)
The fact that all the data and software was ready to use on an already prepared VM, provided by the trainer in external disks.