Programa del Curso

Sección 1: Data Management en HDFS

  • Varios formatos de datos (JSON / Avro / Parquet)
  • Esquemas de compresión
  • Enmascaramiento de datos
  • Laboratorios : Análisis de diferentes formatos de datos;  Habilitación de la compresión

Sección 2: Cerdo Avanzado

  • Funciones definidas por el usuario
  • Introducción a las Bibliotecas de Cerdos (ElephantBird / Data-Fu)
  • Carga de datos estructurados complejos con Pig
  • Afinación de cerdos
  • Labs: secuencias de comandos pig avanzadas, análisis de tipos de datos complejos

Sección 3 : Avanzado Hive

  • Funciones definidas por el usuario
  • Tablas comprimidas
  • Hive Ajuste del rendimiento
  • Labs: creación de tablas comprimidas, evaluación de formatos de tabla y configuración

Sección 4 : HBasa avanzada

  • Modelado de esquemas avanzado
  • Compresión
  • Ingesta masiva de datos
  • Comparación de mesa ancha / mesa alta
  • HBase y Cerdo
  • HBase y Hive
  • Ajuste del rendimiento de HBase
  • Laboratorios: afinación de HBase; acceder a los datos de HBase de Pig & Hive; Uso de Phoenix para el modelado de datos

Requerimientos

  • Cómodo con el lenguaje de programación Java (la mayoría de los ejercicios de programación están en Java)
  • Cómodo en el entorno Linux (ser capaz de navegar por la línea de comandos Linux, editar archivos usando VI / Nano)
  • un conocimiento práctico  de Hadoop.

Entorno de laboratorio

Instalación cero: ¡ No es necesario instalar el software Hadoop en las máquinas de los estudiantes! Se proporcionará un clúster de Hadoop en funcionamiento para los estudiantes.

Los estudiantes necesitarán lo siguiente

 21 Horas

Número de participantes


Precio por Participante​

Testimonios (4)

Próximos cursos

Categorías Relacionadas