Introduction to Big Data

Page 1

Introducción a Big Data

Mauricio Espinoza Mejía Programa de Maestría en Gestión Estratégica de Tecnologías de la Información

Universidad de Cuenca Reconocimientos: Prof. Luis Joyanes Aguilar


Contenido

La era del petabye DefiniciĂłn y caracterĂ­siticas de big data Fuentes de big data Estructura de datos en big data: tipos datos Estado Actual

2


LA ERA DEL PETABYTE (1.000 TB) Wired , julio 2008 (www.wired.com) Nuestra capacidad para capturar, almacenar y comprender cantidades masivas de datos está cambiando la ciencia, medicina, negocios y tecnología. A medida que aumenta nuestra colección de hechos y figuras, crece la oportunidad de encontrar respuestas a preguntas fundamentales

Because in the era of big data, more isn´t just more. More is different 3


LA ERA DEL PETABYTE (1.000 TB) 1TB (250.000 canciones) 20 TB (fotos “uploaded” a Facebook cada mes) 120 TB (todos los datos e imágenes recogidos por el telescopio espacial Hubble) 460 TB (todos los datos del tiempo climático en EEUÜ compilados por el National Climatic Data Center) 530 TB (Todos los vídeos de YouTube) 600 TB (base de datos que incluye todos los censos de EEUU 1790-2000) 1 PB (datos procesados por los servidores de Google cada 75 minutos) 4


The Economist, feb 2010: data, data everywhere�

5


El Universo Digital – EMC / IDC

6


EL UNIVERSO DIGITAL DE DATOS, 2013 En términos de volumen, 40 ZB de datos son equivalentes a lo siguiente: Existen 700.500.000.000.000.000.000 granos de arena en todas las playas del mundo (o setecientos trillones quinientos mil billones). 40 ZB equivalen a 57 veces la cantidad de granos de arena de todas las playas del mundo. Si pudiéramos guardar los 40 ZB en los discos Blueray de la actualidad, el peso de dichos discos (sin fundas ni estuches) sería equivalente a 424 portaaviones Nimitz. En 2020, 40 ZB serán 5.247 GB por persona a nivel mundial 7


LA AVALANCHA DE DATOS Según Eric Schmidt, presidente ejecutivo de Google, entre el origen de la tierra y el 2003 se crearon cinco exabytes de información. Hoy en día creamos la misma cifra cada dos días. Las previsiones aseguran que en esta década crearemos alrededor de 35 zettabytes (40 ZB, informe de diciembre de 2012) Según la consultora IDC, cifran en 1,8 Zettabytes la información generada en 2011. Si tratáramos de almacenar esa información en iPads (del modelo de 32GB) necesitaríamos 57.500 millones; puestos unos al lado de otro formaríamos una línea que daría 3 veces la vuelta al mundo y, si tratáramos de apilarlos, la “montaña” resultante sería 25 veces más alta que el monte Fuji. 8


Algunos ejemplos del mundo real

9


What do we mean by "big data"? : McKinsey 2011

“Big data� refers to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze.

10


What do we mean by “big data?”

11


Fuentes de Big Data Fuentes de Big Data (Soares 2012): Web y Social media Machine-to-Machine (M2M, Internet de las cosas) Biometría Datos de transacciones de grandes datos (salud, telecomunicaciones‌) Datos generados por las personas (humanos)

12


Estructura de Big Data: tipos de datos Estructurados No estructurados texto, datos de vídeo, datos de audio, ….

Semiestructurados ( a veces se conocen como “multiestructurados”. Tienen un formato y flujo lógico de modo que pueden ser entendidos pero el formato no es amistoso al usuario (HTML, XML…, datos de web logs) Normalmente, se suelen asociar los datos estructurados a los tradicionales y los datos no estructurados a los Big Data 13


Estado Actual 1. Almacenamiento: hacen falta nuevas tecnologías de almacenamiento

2. Bases de datos: las BD relacionales no pueden con todo

3. Procesado: se requieren nuevos modelos de programación

4. Obtención de valor: los datos no se pueden comer crudos (en bruto) La información no es conocimiento “accionable”

14


1. Almacenamiento Hacen falta nuevas tecnologías de almacenamiento RAM vs HHD Memorias hardware. HHD 100 más barato que RAM pero 1000 veces más lento

Solución actual: Solid- state drive (SSD) además no volátil

Investigación: Tecnologías “in-memory” (SAP HANA…)

15


2. Bases de Datos (I) Las aplicaciones web modernas presentan desafíos muy distintos a las que presentan los sistemas empresariales tradicionales : Datos a escala web Alta frecuencia de lecturas y escrituras Cambios de esquema de datos frecuentes Las aplicaciones sociales (no bancarias) no necesitan el mismo nivel de ACID

Limitadas para almacenamiento de “big data” (ACID, SQL, …) Atomicity, Consistency, Isolation and Durability: Atomicidad, Consistencia, Aislamiento y Durabilidad

Tendencia NOSQL 16


2. Bases de Datos (II) Tendencia NOSQL

NoSQL – "not only SQL” – es una categoría general de sistemas de gestión de bases de datos que difiere de modelo relacionales clásicos (RDBMS) en diferente modos: Estos data stores no requieren esquemas de información fijas

Evitan las operaciones JOIN Forma almacenar datos 17


2. Bases de Datos (III) La principal diferencia radica en cómo guardan los datos (por ejemplo, almacenamiento de un recibo): En una RDBMS tendríamos que partir la información en diferentes tablas y luego usar un lenguaje de programación en la parte servidora para transformar estos datos en objetos de la vida real. En NoSQL, simplemente guardas el recibo:

NoSQL es libre de schemas, tú no diseñas tus tablas y su estructura por adelantado ¡¡¡NoSQL no es la panacea!!!

18


2. Bases de Datos (IV) La principal diferencia radica en cómo guardan los datos (por ejemplo, almacenamiento de un recibo): En una RDBMS tendríamos que partir la información en diferentes tablas y luego usar un lenguaje de programación en la parte servidora para transformar estos datos en objetos de la vida real. En NoSQL, simplemente guardas el recibo:

NoSQL es libre de schemas, tú no diseñas tus tablas y su estructura por adelantado ¡¡¡NoSQL no es la panacea!!!

19


2. Bases de Datos (V) QuĂŠ tipo de bases de datos elijo?

Algunas respuestas pueden encontrarse en: key criteria for choosing them http://searchdatamanagement.techtarget.com/featu re/Key-criteria-for-choosing-different-types-ofNoSQL-databasesFive Reasons to Use NoSQL

Las mĂĄs populares son: Cassandra, CouchDB, MongoDB, Riak, Neo4j

20


2. Bases de Datos (VI) Los principales tipos de BBDD NoSQL de acuerdo con su implementaciรณn son los siguientes: Almacenes de documentos

Almacenes de Clave-Valor Grafos

21


3. Procesado Se requieren nuevos modelos de programaci贸n Soluci贸n: Para conseguir procesar grandes conjuntos de datos: MapReduce

Google cre贸 el modelo de programaci贸n MapReduce

22


4. Obtención del Valor Para ello tenemos técnicas de Data Mining Asociación Clasificación Clustering Predicción ...

La mayoría de algoritmos se ejecutan bien en miles de registros, pero son hoy por hoy impracticables en miles de millones.

23


Integraciรณn con Big Data. FUENTE: datalytics.com

24


Integraciรณn con Big Data. FUENTE: datalytics.com

25


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.