Programa del Curso
Sección 1: Data Management en HDFS
- Varios formatos de datos (JSON / Avro / Parquet)
- Esquemas de compresión
- Enmascaramiento de datos
- Laboratorios : Análisis de diferentes formatos de datos; Habilitación de la compresión
Sección 2: Cerdo Avanzado
- Funciones definidas por el usuario
- Introducción a las Bibliotecas de Cerdos (ElephantBird / Data-Fu)
- Carga de datos estructurados complejos con Pig
- Afinación de cerdos
- Labs: secuencias de comandos pig avanzadas, análisis de tipos de datos complejos
Sección 3 : Avanzado Hive
- Funciones definidas por el usuario
- Tablas comprimidas
- Hive Ajuste del rendimiento
- Labs: creación de tablas comprimidas, evaluación de formatos de tabla y configuración
Sección 4 : HBasa avanzada
- Modelado de esquemas avanzado
- Compresión
- Ingesta masiva de datos
- Comparación de mesa ancha / mesa alta
- HBase y Cerdo
- HBase y Hive
- Ajuste del rendimiento de HBase
- Laboratorios: afinación de HBase; acceder a los datos de HBase de Pig & Hive; Uso de Phoenix para el modelado de datos
Requerimientos
- Cómodo con el lenguaje de programación Java (la mayoría de los ejercicios de programación están en Java)
- Cómodo en el entorno Linux (ser capaz de navegar por la línea de comandos Linux, editar archivos usando VI / Nano)
- un conocimiento práctico de Hadoop.
Entorno de laboratorio
Instalación cero: ¡ No es necesario instalar el software Hadoop en las máquinas de los estudiantes! Se proporcionará un clúster de Hadoop en funcionamiento para los estudiantes.
Los estudiantes necesitarán lo siguiente
- un cliente SSH (Linux y Mac ya tienen clientes ssh, para Windows se recomienda Utty )
- un navegador para acceder al clúster. Recomendamos el navegador Firefox
Testimonios (4)
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Curso - Impala for Business Intelligence
The VM I liked very much The Teacher was very knowledgeable regarding the topic as well as other topics, he was very nice and friendly I liked the facility in Dubai.
Safar Alqahtani - Elm Information Security
Curso - Big Data Analytics in Health
Liked very much the interactive way of learning.
Luigi Loiacono
Curso - Data Analysis with Hive/HiveQL
I mostly liked the trainer giving real live Examples.