Curso de De los Datos a la Decisión con Big Data y Análisis Predictivo
Audiencia
Si intentas dar sentido a los datos a los que tienes acceso o quieres analizar datos no estructurados disponibles en la red (como Twitter, Linked in, etc...) este curso es para ti.
Está dirigido principalmente a los responsables de la toma de decisiones y a las personas que necesitan elegir qué datos vale la pena recopilar y cuáles vale la pena analizar.
No está dirigido a las personas que configuran la solución, sin embargo, esas personas se beneficiarán del panorama general.
Modo de entrega
Durante el curso, se presentarán a los delegados ejemplos de trabajo de tecnologías de código abierto.
A las conferencias breves les seguirán una presentación y ejercicios sencillos por parte de los participantes
Contenido y software utilizado
Todo el software utilizado se actualiza cada vez que se ejecuta el curso, por lo que comprobamos las versiones más recientes posibles.
Abarca el proceso desde la obtención, formateo, procesamiento y análisis de los datos, hasta explicar cómo automatizar el proceso de toma de decisiones con machine learning.
Programa del Curso
Resumen rápido
- Fuentes de datos
- Cuidado de los datos
- Sistemas de recomendación
- Objetivo Marketing
Datatypes
- Estructurado vs no estructurado
- Estático vs transmitido
- Datos actitudinales, conductuales y demográficos
- Analítica basada en datos frente a analítica impulsada por el usuario
- Validez de los datos
- Volumen, velocidad y variedad de datos
Modelos
- Modelos de construcción
- Modelos estadísticos
- Aprendizaje automático
Clasificación de datos
- Agrupamiento
- kGroups, k-means, los vecinos más cercanos
- Colonias de hormigas, bandadas de pájaros
Modelos predictivos
- Árboles de decisión
- Máquina de vectores de soporte
- Clasificación Bayes ingenua
- Redes neuronales
- Modelo de Markov
- Regresión
- Métodos de ensamble
Retorno de la inversión
- Relación beneficio/costo
- Costo del software
- Costo de desarrollo
- Beneficios potenciales
Modelos de construcción
- Preparación de datos (MapReduce)
- Limpieza de datos
- Elección de métodos
- Modelo en desarrollo
- Modelo de prueba
- Evaluación de modelos
- Implementación e integración de modelos
Visión general del software comercial y de código abierto
- Selección del paquete R-project
- Python Bibliotecas
- Hadoop y Mahout
- Proyectos Apache seleccionados relacionados con Big Data y Analytics
- Solución comercial seleccionada
- Integración con el software y las fuentes de datos existentes
Requerimientos
Comprensión de los métodos tradicionales de gestión y análisis de datos como SQL, almacenes de datos, business intelligence, OLAP, etc... Comprensión de la estadística básica y la probabilidad (media, varianza, probabilidad, probabilidad condicional, etc.)
Los cursos de formación abiertos requieren más de 5 participantes.
Curso de De los Datos a la Decisión con Big Data y Análisis Predictivo - Booking
Curso de De los Datos a la Decisión con Big Data y Análisis Predictivo - Enquiry
De los Datos a la Decisión con Big Data y Análisis Predictivo - Consultas
Consultas
Testimonios (2)
El contenido, ya que me pareció muy interesante y creo que me ayudaría en mi último año en la Universidad.
Krishan - NBrown Group
Curso - From Data to Decision with Big Data and Predictive Analytics
Traducción Automática
Richard's training style kept it interesting, the real world examples used helped to drive the concepts home.
Jamie Martin-Royle - NBrown Group
Curso - From Data to Decision with Big Data and Predictive Analytics
Traducción Automática
Próximos cursos
Cursos Relacionados
Inteligencia Artificial - La Materia más Aplicada - Análisis de Datos + AI Distribuido + PNL
21 HorasEste curso está dirigido a desarrolladores y científicos de datos que quieran comprender e implementar la IA en sus aplicaciones. Se presta especial atención al análisis de datos, la inteligencia artificial distribuida y el procesamiento del lenguaje natural.
Unified Batch and Stream Processing with Apache Beam
14 HorasApache Beam es un modelo de programación unificado de código abierto para definir y ejecutar tuberías de procesamiento de datos paralelas. Su poder radica en su capacidad para ejecutar canalizaciones por lotes y de transmisión, y la ejecución la lleva a cabo uno de los back-ends de procesamiento distribuido compatibles con Beam: Apache Apex, Apache Flink, Apache Spark y Google Cloud Dataflow. Apache Beam es útil para tareas ETL (Extracción, Transformación y Carga), como mover datos entre diferentes medios de almacenamiento y fuentes de datos, transformar datos a un formato más deseable y cargar datos en un nuevo sistema.
En esta capacitación en vivo dirigida por un instructor (presencial o remota), los participantes aprenderán a implementar los SDK Apache Beam en una aplicación Java o Python que define una canalización de procesamiento de datos para descomponer un conjunto de datos grandes en fragmentos más pequeños para un procesamiento paralelo e independiente.
Al final de esta formación, los participantes serán capaces de:
- Instalar y configurar Apache Beam.
- Utilice un único modelo de programación para llevar a cabo el procesamiento por lotes y por secuencias desde su aplicación Java o Python.
- Ejecute canalizaciones en múltiples entornos.
Formato del curso
- En parte conferencia, en parte discusión, ejercicios y práctica práctica pesada
Nota
- Este curso estará disponible Scala en el futuro. Póngase en contacto con nosotros para organizarlo.
Bóveda de Datos: Creación de un Almacén de Datos Escalable
28 HorasEn esta capacitación en vivo dirigida por un instructor en Venezuela, los participantes aprenderán cómo construir un Data Vault.
Al final de esta formación, los participantes serán capaces de:
- Comprender los conceptos de arquitectura y diseño detrás de Data Vault 2.0 y su interacción con Big Data, NoSQL e IA.
- Utilice técnicas de almacenamiento de datos para permitir la auditoría, el seguimiento y la inspección de datos históricos en un almacén de datos.
- Desarrolle un proceso ETL (Extracción, Transformación, Carga) coherente y repetible.
- Construya e implemente almacenes altamente escalables y repetibles.
Flink para Flujo Escalable y Procesamiento de Datos por Lotes
28 HorasEsta capacitación en vivo dirigida por un instructor en Venezuela (en línea o presencial) presenta los principios y enfoques detrás del procesamiento de datos de flujo distribuido y por lotes, y guía a los participantes a través de la creación de una aplicación de transmisión de datos en tiempo real en Apache Flink.
Al final de esta formación, los participantes serán capaces de:
- Configure un entorno para desarrollar aplicaciones de análisis de datos.
- Comprender cómo funciona la biblioteca de procesamiento de gráficos (Gelly) de Apache Flink.
- Empaquete, ejecute y supervise aplicaciones de transmisión de datos tolerantes a errores y basadas en Flink.
- Administre diversas cargas de trabajo.
- Realizar analíticas avanzadas.
- Configure un clúster de Flink de varios nodos.
- Mida y optimice el rendimiento.
- Integre Flink con diferentes Big Data sistemas.
- Compare las capacidades de Flink con las de otros marcos de procesamiento de big data.
Generative & Predictive AI for Developers
21 HorasEsta formación en Venezuela (online u onsite) dirigida por un instructor y en vivo está destinada a desarrolladores de nivel intermedio que desean construir aplicaciones potenciadas por IA utilizando análisis predictivos y modelos generativos.
Al final de esta capacitación, los participantes podrán:
- Entender los fundamentos de la IA predictiva y los modelos generativos.
- Utilizar herramientas potenciadas por IA para la codificación predictiva, la elaboración de pronósticos y la automatización.
- Implementar LLM (Modelos de Lenguaje Grande) y transformadores para la generación de texto y código.
- Aplicar pronósticos de series temporales y recomendaciones basadas en IA.
- Desarrollar y ajustar modelos de IA para aplicaciones del mundo real.
- Evaluar consideraciones éticas y mejores prácticas en el despliegue de IA.
Introducción a Graph Computing
28 HorasEn esta capacitación en vivo dirigida por un instructor en Venezuela, los participantes aprenderán sobre las ofertas tecnológicas y los enfoques de implementación para el procesamiento de datos de gráficos. El objetivo es identificar objetos del mundo real, sus características y relaciones, luego modelar estas relaciones y procesarlas como datos utilizando un enfoque Graph Computing (también conocido como análisis de grafos). Comenzamos con una visión general amplia y nos limitamos a herramientas específicas a medida que avanzamos a través de una serie de estudios de casos, ejercicios prácticos e implementaciones en vivo.
Al final de esta formación, los participantes serán capaces de:
- Comprenda cómo se conservan y atraviesan los datos de los gráficos.
- Seleccione el mejor marco para una tarea determinada (desde bases de datos de grafos hasta marcos de procesamiento por lotes).
- Implemente Hadoop, Spark, GraphX y Pregel para llevar a cabo el cálculo de grafos en muchas máquinas en paralelo.
- Vea problemas de big data del mundo real en términos de gráficos, procesos y recorridos.
Hortonworks Data Platform (HDP) para Administradores
21 HorasEsta capacitación en vivo dirigida por un instructor en Venezuela (en línea o presencial) presenta Hortonworks Data Platform (HDP) y guía a los participantes a través de la implementación de la solución Spark + Hadoop.
Al final de esta formación, los participantes serán capaces de:
- Utilice Hortonworks para ejecutar Hadoop de forma fiable a gran escala.
- Unifique las capacidades de seguridad, gobernanza y operaciones de Hadoop con los flujos de trabajo analíticos ágiles de Spark.
- Utilice Hortonworks para investigar, validar, certificar y dar soporte a cada uno de los componentes de un proyecto de Spark.
- Procese diferentes tipos de datos, incluidos los estructurados, no estructurados, en movimiento y en reposo.
Introduction to Predictive AI
21 HorasEsta capacitación en vivo dirigida por un instructor en Venezuela (en línea o en el sitio) está dirigida a profesionales de TI de nivel principiante que deseen comprender los fundamentos de la IA predictiva.
Al final de esta capacitación, los participantes serán capaces de:
- Comprender los conceptos básicos de la IA predictiva y sus aplicaciones.
- Recopile, limpie y preprocese datos para el análisis predictivo.
- Explore y visualice los datos para descubrir información.
- Construir modelos estadísticos básicos para hacer predicciones.
- Evaluar el rendimiento de los modelos predictivos.
- Aplique los conceptos de IA predictiva a escenarios del mundo real.
Confluent KSQL
7 HorasEsta capacitación en vivo dirigida por un instructor en Venezuela (en línea o presencial) está dirigida a desarrolladores que desean implementar Apache Kafka el procesamiento de flujos sin escribir código.
Al final de esta formación, los participantes serán capaces de:
- Instale y configure Confluent KSQL.
- Configure una canalización de procesamiento de secuencias utilizando solo los comandos SQL (sin codificación Java o Python).
- Lleve a cabo el filtrado de datos, las transformaciones, las agregaciones, las uniones, las ventanas y la sessionización íntegramente en SQL.
- Diseñe e implemente consultas interactivas y continuas para la transmisión de ETL y análisis en tiempo real.
Apache NiFi para administradores
21 HorasEn esta capacitación en vivo dirigida por un instructor en Venezuela (presencial o remoto), los participantes aprenderán cómo implementar y administrar Apache NiFi en un entorno de laboratorio en vivo.
Al final de esta formación, los participantes serán capaces de:
- Instala y configura Apachi NiFi.
- Obtenga, transforme y administre datos de fuentes de datos dispares y distribuidas, incluidas bases de datos y lagos de big data.
- Automatice los flujos de datos.
- Habilite el análisis de transmisión.
- Aplique varios enfoques para la ingesta de datos.
- Transforme Big Data y conviértase en información empresarial.
Apache NiFi para desarrolladores
7 HorasEn esta capacitación en vivo dirigida por un instructor en Venezuela, los participantes aprenderán los fundamentos de la programación basada en flujo a medida que desarrollan una serie de extensiones, componentes y procesadores de demostración utilizando Apache NiFi.
Al final de esta formación, los participantes serán capaces de:
- Comprenda la arquitectura de NiFi y los conceptos de flujo de datos.
- Desarrolle extensiones utilizando NiFi y API de terceros.
- Desarrollar a medida su propio procesador Apache Nifi.
- Ingiera y procese datos en tiempo real de formatos de archivo y fuentes de datos dispares y poco comunes.
Predictive AI in DevOps: Enhancing Software Delivery
14 HorasEsta formación en directo dirigida por un instructor en Venezuela (online o presencial) está dirigida a profesionales de nivel intermedio DevOps que deseen integrar la IA predictiva en sus DevOps prácticas.
Al final de esta capacitación, los participantes serán capaces de:
- Implemente modelos de análisis predictivo para pronosticar y resolver desafíos en la canalización DevOps.
- Utilice herramientas impulsadas por IA para mejorar la supervisión y las operaciones.
- Aplique técnicas de aprendizaje automático para mejorar los flujos de trabajo de entrega de software.
- Diseñe estrategias de IA para la resolución proactiva de problemas y la optimización.
- Navegue por las consideraciones éticas del uso de la IA en DevOps.
Python y Spark para Big Data (PySpark)
21 HorasEn esta capacitación en vivo dirigida por un instructor en Venezuela, los participantes aprenderán a usar Python y Spark juntos para analizar big data mientras trabajan en ejercicios prácticos.
Al final de esta formación, los participantes serán capaces de:
- Aprenda a usar Spark con Python para analizar Big Data.
- Trabaja en ejercicios que imiten casos del mundo real.
- Utilice diferentes herramientas y técnicas para el análisis de big data utilizando PySpark.
Spark Streaming with Python and Kafka
7 HorasEsta capacitación en vivo dirigida por un instructor en Venezuela (en línea o en el sitio) está dirigida a ingenieros de datos, científicos de datos y programadores que deseen utilizar Spark Streaming funciones en el procesamiento y análisis de datos en tiempo real.
Al final de esta capacitación, los participantes podrán usar Spark Streaming para procesar flujos de datos en vivo para su uso en bases de datos, sistemas de archivos y paneles de control en vivo.
Apache Spark MLlib
35 HorasMLlib es la biblioteca de aprendizaje automático (ML) de Spark. Su objetivo es hacer que el aprendizaje automático práctico sea escalable y fácil. Consta de algoritmos y utilidades de aprendizaje comunes, como clasificación, regresión, agrupación, filtrado colaborativo, reducción de dimensionalidad, así como primitivas de optimización de nivel inferior y API de canalización de nivel superior.
Se divide en dos paquetes:
-
spark.mllib contiene la API original creada sobre RDD.
-
spark.ml proporciona una API de nivel superior basada en DataFrames para construir canalizaciones de ML.
Audiencia
Este curso está dirigido a ingenieros y desarrolladores que buscan utilizar una biblioteca de máquinas incorporada para Apache Spark