ANÁLISIS AVANZADO DE DATOS Y ENTORNOS PARA EL TRATAMIENTO Y ANÁLISIS DE DATOS

Page 1

ÁREA DE TECNOLOGÍAS DE LA INFORMACIÓN PROGRAMA ACADÉMICO DE INFRAESTRUCTURA DE REDES DIGITALES

MATERIA: INTRODUCCIÓN A BIG DATA PROFESOR(A): MIGUEL VICENTE MATA SANTOS TÍTULO: ANÁLISIS AVANZADO DE DATOS Y ENTORNOS PARA EL TRATAMIENTO Y ANÁLISIS DE DATOS

ALUMNO(A): FÁTIMA ABIGAIL PORRAS NORIEGA GRUPO: IRD501 LEÓN, GUANAJUATO. 01 DE ABRIL DE 2020


INTRODUCCIÓN AL TEMA En la siguiente presentación, se explicará lo que es el análisis avanzado de datos , es

decir, las nuevas tecnologías disponibles capaces de almacenar grandes cantidades de datos y de procesarlos o sacarles un valor. Será importante conocer también, lo que es el análisis exploratorio o análisis

descriptivo de datos, entender su objetivo y en qué consisten, además de conocer el proceso a seguir frente a estos. También se hablará del análisis univariante y multivariante, y, por último, las métricas o medidas más comunes para cada enfoque.


ANÁLISIS EXPLORATORIO DE DATOS ¿QUÉ ES? Es

un

análisis

preliminar

de

datos

cuyo

OBJETIVO es ganar intuición sobre los datos y

descubrir estructuras subyacentes en ellos.

Desde el momento en que los datos se encuentran a nuestra disposición, se deben empezar a

conocer: a) Saber de qué hablan. b) Qué variables o campos de

información contienen. c) Qué

forma

tienen

estas

variables.

d) Qué relaciones hay entre ellas.


FASES DEL ANÁLISIS EXPLORATORIO DE DATOS

1

Preparación de los datos para su estudio estadístico. Análisis gráfico y descriptivo de las variables de forma individual.

3

Análisis gráfico y descriptivo de las relaciones entre las variables. Evaluación de hipótesis sobre la distribución de los datos.

5

2

4

Identificar la existencia de valores atípicos.

Impacto de los datos ausentes.

6


EL ANÁLISIS EXPLORATORIO DE DATOS SE PUEDE DIVIDIR EN:

ANÁLISIS UNIVARIANTE

Se centra en el estudio de las variables independiente, de una en una.

de

forma

Técnicas o métricas que ayudan a entender los datos: Frecuencia

ANÁLISIS MULTIVARIANTE

Centralidad

Forma

Se encarga de estudiar ya no las variables por separado, sino de forma conjunta intentado encontrar relaciones entre ellas.

Técnicas o métricas que ayudan a entender los datos: Tabulación cruzada

Covarianza

Correlación


ANÁLISIS GRÁFICO EXPLORATORIO ¿QUÉ ES EL ANÁLISIS GRÁFICO EXPLORATORIO? Es el conjunto de herramientas que permite organizar y representar datos de forma gráfica, con el fin de extraer información cualitativa de ellos. Algunas de las medidas o representaciones gráficas más comunes y utilizadas en un análisis gráfico exploratorio son: 3.5 3 2.5 2 1.5 1 0.5 0

0

Histogramas

Gráficos de cajas

1

2

3

Diagramas de dispersión

Estas representaciones visuales buscan conocer los datos que estamos procesando y ganar intuición sobre ellos. Por ejemplo, detectando valores atípicos o identificando variables importantes.


LENGUAJES DE PROGRAMACIÓN PARA EL TRATAMIENTO Y ANÁLISIS DE DATOS

Los lenguajes de programación mas utilizados para el tratamiento y análisis de datos son Python y R. Tenemos que estar familiarizados con la programación, pero podemos tener resultados poderosos y personalizados, a costo de inversión, de tiempo y preparación de entornos de desarrollo.

Python es un lenguaje de uso general que funciona para proyectos de analítica gracias a las librerías como Pandas (gestión de datos), Scikit (algoritmos de machine learning), Numpy (cómputos matriciales) y Matplotlib (generación de gráficos). Es poderoso y sirve para la producción de modelos analíticos.

R es un lenguaje dedicado a estadística computacional, ha sido utilizado por agentes de wallstreet, biólogos, walmart y Facebook. Cuenta con herramientas para la agradable visualización de los datos. Se utiliza generalmente para la producción de prototipos


HERRAMIENTAS DE ANALÍTICA PARA EL TRATAMIENTO Y ANÁLISIS DE DATOS

Son aplicaciones que cuentan con interfaces para usuarios que no son precisamente expertos, son sencillas y eficaces, cuentan con algoritmos de machine learning y ofrecen analítica de datos y gráficas. En el mercado hay muchísimas opciones para elegir entre una y otra. Algunas de las que existen son Weka, Knime, Dataiku, Bic MC, entre otros.


INVESTIGACIÓN

DATA SCIENCE VS DATA ANALYTICS Puede ser confuso entender las diferencias entre estos dos conceptos, pues los dos se

encargan de analizar datos. Pero hay algunas diferencias que los distinguen:

La primera es que el data analytics se encarga de analizar los datos capturados sin recibir modificaciones o alteraciones para llegar a una conclusión y tomar decisiones del presente. En cambio, el data science se encarga de la preparación de los datos,

análisis de los resultados y predicciones con respecto a los mismos, éste se encarga de hacer preguntas futuras y data analytics se encarga de resolverlas.


CONCLUSIÓN Es muy importante conocer las distintas herramientas que tenemos para el análisis y el tratamiento de los datos ya que para representarlos de una manera gráfica debemos de conocer tanto lenguajes de programación, como otras métricas. También fue interesante el análisis exploratorio de datos ya que pudimos ganar intuición sobre estos y además

descubrir estructuras subyacentes en ellos, el proceso del análisis de datos es muy sencillo, además podemos ver que de ahí se desprende el análisis univariante y el multivariante, los cuales son muy importantes también. Pude concluir que la estadística descriptiva es de gran

ayuda dentro de este tema ya que todo se basa en la estadística y en los diferentes tipos que tenemos para representar los datos


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.