Programa del Curso

Día 01

Visión general de Big Data Business Intelligence para el Análisis de Inteligencia Criminal

  • Estudios de caso de la policía: Predicción del delito
  • Tasa de adopción de Big Data en agencias de aplicación de la ley y cómo están alineando su operación futura en torno a Big Data Predictive Analytics
  • Soluciones de tecnología emergente como sensores de balas, video de vigilancia y redes sociales
  • Utilizando la tecnología Big Data para mitigar la sobrecarga de información
  • Interfacing Big Data con datos legados
  • Comprensión básica de las tecnologías habilitadoras en análisis predictivo
  • Data Integration y visualización de Dashboard
  • Gestión de fraudes
  • Business Rules y detección de fraudes
  • Detección y perfilado de amenazas
  • Análisis de costo-beneficio para la implementación de Big Data

Introducción a Big Data

  • Principales características de Big Data: Volumen, Variedad, Velocidad y Veracidad.
  • Arquitectura MPP (Massively Parallel Processing)
  • Data Warehouses: esquema estático, conjunto de datos de evolución lenta
  • Databases MPP: Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
  • Soluciones basadas en Hadoop – sin condiciones sobre la estructura del conjunto de datos.
  • Patrón típico: HDFS, MapReduce (crunch), recuperar de HDFS
  • Apache Spark para procesamiento de flujos
  • Lote: adecuado para analítico/no interactivo
  • Volumen: datos de flujo CEP
  • Elecciones típicas: productos CEP (por ejemplo, Infostreams, Apama, MarkLogic, etc.)
  • Menos producción lista: Storm/S4
  • NoSQL Databases: (columnar y clave-valor): Mejor adaptado como adjunto analítico a data warehouse/base de datos

NoSQL soluciones

  • Tienda KV - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • Tienda KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • Tienda KV (Jerárquica) - GT.m, Cache
  • Tienda KV (Ordenada) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tienda de tuplas - Gigaspaces, Coord, Apache River
  • Tienda de objetos Database - ZopeDB, DB40, Shoal
  • Tienda de documentos - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variedades de datos: Introducción a Data Cleaning problemas en Big Data

  • RDBMS – estructura/schema estática, no promueve un entorno ágil y exploratorio.
  • NoSQL – semi estructurado, suficiente estructura para almacenar datos sin esquema exacto antes de almacenar datos
  • Problemas de limpieza de datos

Hadoop

  • ¿Cuándo seleccionar Hadoop?
  • ESTRUCTURADO: los almacenes de datos/ bases de datos empresariales pueden almacenar datos masivos (a un costo) pero imponen estructura (no es bueno para la exploración activa)
  • Datos SEMI ESTRUCTURADOS: difíciles de realizar con soluciones tradicionales (DW/DB)
  • Almacenar datos = ENORME esfuerzo y estático incluso después de la implementación
  • Para variedad y volumen de datos, procesados en hardware de Commodities: HADOOP
  • El hardware de Commodities es necesario para crear un clúster Hadoop

Introducción a Map Reduce /HDFS

  • MapReduce: distribuir la informática en múltiples servidores
  • HDFS: hacer que los datos estén disponibles localmente para el proceso informático (con redundancia)
  • Datos: pueden ser no estructurados/sin esquema (a diferencia de RDBMS)
  • Responsabilidad del desarrollador para dar sentido a los datos
  • Programming MapReduce = trabajar con Java (pros y contras), cargar datos manualmente en HDFS

Día 02

¿Ecosistema Big Data -- Construyendo Big Data ETL (Extraer, Transformar, Cargar) -- ¿Qué herramientas Big Data usar y cuándo?

  • Hadoop vs. Otras soluciones NoSQL
  • Para acceso interactivo y aleatorio a los datos
  • Hbase (base de datos orientada a columnas) sobre Hadoop
  • Acceso aleatorio a los datos, pero restricciones impuestas (máx. 1 PB)
  • No es bueno para analítica ad-hoc, bueno para registrar, contar y series de tiempo
  • Sqoop - Importar de bases de datos a Hive o HDFS (acceso JDBC/ODBC)
  • Flume: transmitir datos (por ejemplo, datos de registro) a HDFS

Sistema Big Data Management

  • Partes móviles, nodos de cálculo que comienzan/fail: ZooKeeper - Para servicios de configuración/coordination/naming
  • Pipeline/workflow complejo: Oozie: gestionar workflow, dependencias, cadena de margaritas
  • Implementar, configurar, gestión de clústeres, actualizar, etc. (sys admin): Ambari
  • En la nube: Whirr

Predictive Analytics -- Técnicas Fundamentales e Inteligencia de Negocios basada en Aprendizaje Automático

  • Introducción a Machine Learning
  • Técnicas de clasificación de aprendizaje
  • Predicción bayesiana: preparando un archivo de entrenamiento
  • Máquina de vectores de soporte
  • Algebra de p-Tree KNN y minería vertical
  • Neural Networks
  • Problema de variable grande Big Data -- Bosque aleatorio (RF)
  • Problema de automatización Big Data – RF de conjunto de modelos múltiplos
  • Automatización a través de Soft10-M
  • Herramienta de análisis de texto-Treeminer
  • Agile aprendizaje
  • Aprendizaje basado en agentes
  • Aprendizaje distribuido
  • Introducción a herramientas de código abierto para análisis predictivo: R, Python, Rapidminer, Mahut

Predictive Analytics Ecosistema y su aplicación en el Análisis de Inteligencia Criminal

  • Tecnología y el proceso de investigación
  • Análisis de información
  • Analítica de visualización
  • Analítica predictiva estructurada
  • Analítica predictiva no estructurada
  • Perfilado de amenazas/fraudes/proveedores
  • Motor de recomendaciones
  • Detección de patrones
  • Descubrimiento de reglas/escenarios: fracaso, fraude, optimización
  • Descubrimiento de la raíz
  • Análisis de sentimiento
  • Analítica CRM
  • Analítica de redes
  • Analítica de textos para obtener información de transcripciones, declaraciones de testigos, charla de internet, etc.
  • Revisión asistida por tecnología
  • Analítica de fraudes
  • Analítica en tiempo real

Día 03

Analítica en tiempo real y Scalable sobre Hadoop

  • Por qué fallan los algoritmos analíticos comunes en Hadoop/HDFS
  • Apache Hama- para Bulk Synchronous distributed computing
  • Apache SPARK- para cluster computing y analítica en tiempo real
  • CMU Graphics Lab2- Enfoque asíncrono basado en grafos para la informática distribuida
  • Enfoque basado en álgebra de KNN p: Treeminer para reducir el costo de hardware de operación

Herramientas para eDiscovery y análisis forense

  • eDiscovery sobre Big Data vs. datos Legacy: una comparación de costos y rendimiento
  • Codificación predictiva y revisión asistida por tecnología (TAR)
  • Demo en vivo de vMiner para entender cómo TAR permite un descubrimiento más rápido
  • Indexación más rápida a través de HDFS: Velocidad de datos
  • NLP (procesamiento de lenguaje natural): productos y técnicas de código abierto
  • eDiscovery en idiomas extranjeros: tecnología para el procesamiento de idiomas extranjeros

Big Data BI para Cyber Security – Obtener una visión de 360 grados, recopilación rápida de datos e identificación de amenazas

  • Entender los conceptos básicos de la analítica de seguridad: superficie de ataque, mala configuración de seguridad, defensas de host
  • Infraestructura de red / Gran datapipe / ETL de respuesta para análisis en tiempo real
  • Prescriptivo vs predictivo: reglas fijas basadas en reglas vs auto-descubrimiento de reglas de amenaza a partir de metadatos

Recopilación de datos dispares para el análisis de inteligencia criminal

  • Usar IoT (Internet de las cosas) como sensores para capturar datos
  • Usar imágenes de satélite para vigilancia doméstica
  • Usar datos de vigilancia e imágenes para identificación criminal
  • Otras tecnologías de recopilación de datos: drones, cámaras corporales, sistemas de etiquetado por GPS y tecnología de imagen térmica
  • Combinar la recuperación de datos automatizada con datos obtenidos de informantes, interrogatorios e investigaciones
  • Forecasting actividad delictiva

Día 04

BI de prevención de fraudes de Big Data en Fraud Analytics

  • Clasificación básica de Fraud Analytics: basada en reglas vs análisis predictivo
  • Aprendizaje automático supervisado vs no supervisado para la detección de patrones de fraude
  • Business a fraude empresarial, fraude de reclamaciones médicas, fraude de seguros, evasión fiscal y lavado de dinero

Social Media Analítica -- Recopilación y análisis de inteligencia

  • Cómo Social Media es utilizado por los criminales para organizar, reclutar y planificar
  • API de ETL Big Data para extraer datos de redes sociales
  • Texto, imagen, metadatos y video
  • Análisis de sentimientos a partir de fuentes de redes sociales
  • Filtrado contextual y no contextual de fuentes de redes sociales
  • Dashboard Social Media para integrar diversas redes sociales
  • Perfilado automatizado de redes sociales
  • Se dará una demostración en vivo de cada análisis a través de la herramienta Treeminer

Big Data Analítica en el procesamiento de imágenes y transmisiones de vídeo

  • Técnicas de almacenamiento de imágenes en Big Data -- Solución de almacenamiento para datos que superan petabytes
  • LTFS (sistema de archivos de cinta lineal) y LTO (cinta lineal abierta)
  • GPFS-LTFS (sistema de archivos paralelo general - sistema de archivos de cinta lineal) -- solución de almacenamiento en capas para grandes datos de imagen
  • Fundamentos de la analítica de imágenes
  • Reconocimiento de objetos
  • Segmentación de imágenes
  • Seguimiento de movimiento
  • Reconstrucción de imágenes en 3D

Biométricas, ADN y programas de identificación de próxima generación

  • Más allá de la huella dactilar y el reconocimiento facial
  • Reconocimiento de voz, pulsaciones de teclas (analizando el patrón de escritura de un usuario) y CODIS (sistema combinado de índices de ADN)
  • Más allá de la coincidencia de ADN: usar la fenotipificación de ADN forense para construir una cara a partir de muestras de ADN

Big Data Panel de control para un rápido acceso a diversos datos y visualización:

  • Integración de la plataforma de aplicación existente con el dashboard Big Data
  • Gestión de Big Data
  • Estudio de caso de Big Data Dashboard: Tableau y Pentaho
  • Usar la aplicación Big Data para impulsar servicios basados en la ubicación en Govt.
  • Sistema de seguimiento y gestión

Día 05

Cómo justificar la implementación de BI Big Data dentro de una organización:

  • Definiendo el ROI (Retorno sobre Investment) para implementar Big Data
  • Estudios de caso para ahorrar tiempo a los analistas en la recopilación y preparación de datos: aumentar la productividad
  • Ganancia de ingresos por menores costos de licencia de bases de datos
  • Ganancia de ingresos por servicios basados en la ubicación
  • Ahorro de costos por prevención de fraudes
  • Un enfoque de hoja de cálculo integrada para calcular los gastos aproximados frente a las ganancias/ahorros de ingresos de la implementación de Big Data.

Procedimiento paso a paso para reemplazar un sistema de datos heredado por un sistema Big Data

  • Hoja de ruta de migración Big Data
  • ¿Qué información crítica se necesita antes de diseñar un sistema Big Data?
  • ¿Cuáles son las diferentes formas de calcular el volumen, la velocidad, la variedad y la veracidad de los datos?
  • ¿Cómo estimar el crecimiento de los datos?
  • Estudios de caso

Revisión de Big Data Proveedores y revisión de sus productos.

  • Accenture
  • APTEAN (antes CDC Software)
  • Sistemas Cisco
  • Cloudera
  • Dell
  • EMC
  • Corporación GoodData
  • Guavus
  • Sistemas de datos de Hitachi
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (anteriormente 10Gen)
  • MU Sigma
  • Netapp
  • Soluciones de Opera
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Instituto
  • Sisense
  • Software AG/Terracotta
  • Automatización Soft10
  • Splunk
  • Sqrrl
  • Supermicro
  • Software Tableau
  • Teradata
  • Think Big Analytics
  • Sistemas Tidemark
  • Treeminer
  • VMware (parte de EMC)

Sesión de preguntas y respuestas

Requerimientos

  • Conocimiento de los procesos y sistemas de datos de la aplicación de la ley
  • Comprensión básica de SQL/Oracle o base de datos relational
  • Conocimiento básico de estadísticas (nivel de hoja de cálculo)

Audiencia

  • Especialistas en la aplicación de la ley con formación técnica
 35 Horas

Número de participantes


Precio por Participante​

Próximos cursos

Categorías Relacionadas