Programa del Curso

Introducción a Data Analysis y Big Data

  • ¿Qué hace que Big Data sea "grande"?
    • Velocidad, Volumen, Variedad, Veracidad (VVVV)
  • Límites del procesamiento de datos tradicional
  • Procesamiento distribuido
  • Análisis estadístico
  • Tipos de Machine Learning análisis
  • Data Visualization

Big Data Funciones y responsabilidades

  • Administradores
  • Desarrolladores
  • Analistas de datos

Languages Usado para Data Analysis

  • R Language
    • ¿Por qué R para Data Analysis?
    • Manipulación de datos, cálculo y visualización gráfica
  • Python
    • ¿Por qué Python para Data Analysis?
    • Manipulación, procesamiento, limpieza y procesamiento de datos

Aproximaciones a Data Analysis

  • Análisis estadístico
    • Análisis de series temporales
    • Forecasting con modelos de correlación y regresión
    • Inferencial Statistics (estimando)
    • Descriptivo Statistics en Big Data conjuntos (por ejemplo, calculando la media)
  • Machine Learning
    • Aprendizaje supervisado frente a aprendizaje no supervisado
    • Clasificación y agrupación
    • Estimación del costo de métodos específicos
    • Filtrado
  • Procesamiento del lenguaje natural
    • Procesamiento de texto
    • Entendiendo el significado del texto
    • Generación automática de texto
    • Análisis de sentimientos / análisis de temas
  • Computer Vision
    • Adquisición, procesamiento, análisis y comprensión de imágenes
    • Reconstrucción, interpretación y comprensión de escenas 3D
    • Uso de datos de imagen para tomar decisiones

Big Data Infraestructura

  • Almacenamiento de datos
    • Bases de datos relacionales (SQL)
      • MySQL
      • Postgres
      • Oracle
    • Bases de datos no relacionales (NoSQL)
      • Cassandra
      • MongoDB
      • Neo4j s
    • Entendiendo los matices
      • Bases de datos jerárquicas
      • Bases de datos orientadas a objetos
      • Bases de datos orientadas a documentos
      • Bases de datos orientadas a grafos
      • Otro
  • Procesamiento distribuido
    • Hadoop
      • HDFS como sistema de archivos distribuido
      • MapReduce para el procesamiento distribuido
    • Chispa
      • Marco de computación en clúster en memoria todo en uno para el procesamiento de datos a gran escala
      • Transmisión estructurada
      • Chispa SQL
      • Machine Learning bibliotecas: MLlib
      • Procesamiento de grafos con GraphX
  • Scalabilidad
    • Nube pública
      • AWS, Google, Aliyun, etc.
    • Nube privada
      • OpenStack, Cloud Foundry, etc.
    • Escalabilidad automática

Elegir la solución correcta para el problema

El futuro de Big Data

Resumen y próximos pasos

Requerimientos

  • Una comprensión general de las matemáticas
  • Una comprensión general de la programación
  • Comprensión general de las bases de datos

Audiencia

  • Desarrolladores / programadores
  • Consultores de TI
 35 Horas

Número de participantes


Precio por Participante​

Testimonios (7)

Próximos cursos

Categorías Relacionadas