ÁREA DE TECNOLOGÍAS DE LA INFORMACIÓN PROGRAMA ACADÉMICO DE INFRAESTRUCTURA DE REDES DIGITALES
MATERIA: INTRODUCCIÓN A BIG DATA PROFESOR(A): MIGUEL VICENTE MATA SANTOS TÍTULO: ANÁLISIS AVANZADO DE DATOS Y ENTORNOS PARA EL TRATAMIENTO Y ANÁLISIS DE DATOS
ALUMNO(A): FÁTIMA ABIGAIL PORRAS NORIEGA GRUPO: IRD501 LEÓN, GUANAJUATO. 01 DE ABRIL DE 2020
INTRODUCCIÓN AL TEMA En la siguiente presentación, se explicará lo que es el análisis avanzado de datos , es
decir, las nuevas tecnologías disponibles capaces de almacenar grandes cantidades de datos y de procesarlos o sacarles un valor. Será importante conocer también, lo que es el análisis exploratorio o análisis
descriptivo de datos, entender su objetivo y en qué consisten, además de conocer el proceso a seguir frente a estos. También se hablará del análisis univariante y multivariante, y, por último, las métricas o medidas más comunes para cada enfoque.
ANÁLISIS EXPLORATORIO DE DATOS ¿QUÉ ES? Es
un
análisis
preliminar
de
datos
cuyo
OBJETIVO es ganar intuición sobre los datos y
descubrir estructuras subyacentes en ellos.
Desde el momento en que los datos se encuentran a nuestra disposición, se deben empezar a
conocer: a) Saber de qué hablan. b) Qué variables o campos de
información contienen. c) Qué
forma
tienen
estas
variables.
d) Qué relaciones hay entre ellas.
FASES DEL ANÁLISIS EXPLORATORIO DE DATOS
1
Preparación de los datos para su estudio estadístico. Análisis gráfico y descriptivo de las variables de forma individual.
3
Análisis gráfico y descriptivo de las relaciones entre las variables. Evaluación de hipótesis sobre la distribución de los datos.
5
2
4
Identificar la existencia de valores atípicos.
Impacto de los datos ausentes.
6
EL ANÁLISIS EXPLORATORIO DE DATOS SE PUEDE DIVIDIR EN:
ANÁLISIS UNIVARIANTE
Se centra en el estudio de las variables independiente, de una en una.
de
forma
Técnicas o métricas que ayudan a entender los datos: Frecuencia
ANÁLISIS MULTIVARIANTE
Centralidad
Forma
Se encarga de estudiar ya no las variables por separado, sino de forma conjunta intentado encontrar relaciones entre ellas.
Técnicas o métricas que ayudan a entender los datos: Tabulación cruzada
Covarianza
Correlación
ANÁLISIS GRÁFICO EXPLORATORIO ¿QUÉ ES EL ANÁLISIS GRÁFICO EXPLORATORIO? Es el conjunto de herramientas que permite organizar y representar datos de forma gráfica, con el fin de extraer información cualitativa de ellos. Algunas de las medidas o representaciones gráficas más comunes y utilizadas en un análisis gráfico exploratorio son: 3.5 3 2.5 2 1.5 1 0.5 0
0
Histogramas
Gráficos de cajas
1
2
3
Diagramas de dispersión
Estas representaciones visuales buscan conocer los datos que estamos procesando y ganar intuición sobre ellos. Por ejemplo, detectando valores atípicos o identificando variables importantes.
LENGUAJES DE PROGRAMACIÓN PARA EL TRATAMIENTO Y ANÁLISIS DE DATOS
Los lenguajes de programación mas utilizados para el tratamiento y análisis de datos son Python y R. Tenemos que estar familiarizados con la programación, pero podemos tener resultados poderosos y personalizados, a costo de inversión, de tiempo y preparación de entornos de desarrollo.
Python es un lenguaje de uso general que funciona para proyectos de analítica gracias a las librerías como Pandas (gestión de datos), Scikit (algoritmos de machine learning), Numpy (cómputos matriciales) y Matplotlib (generación de gráficos). Es poderoso y sirve para la producción de modelos analíticos.
R es un lenguaje dedicado a estadística computacional, ha sido utilizado por agentes de wallstreet, biólogos, walmart y Facebook. Cuenta con herramientas para la agradable visualización de los datos. Se utiliza generalmente para la producción de prototipos
HERRAMIENTAS DE ANALÍTICA PARA EL TRATAMIENTO Y ANÁLISIS DE DATOS
Son aplicaciones que cuentan con interfaces para usuarios que no son precisamente expertos, son sencillas y eficaces, cuentan con algoritmos de machine learning y ofrecen analítica de datos y gráficas. En el mercado hay muchísimas opciones para elegir entre una y otra. Algunas de las que existen son Weka, Knime, Dataiku, Bic MC, entre otros.
INVESTIGACIÓN
DATA SCIENCE VS DATA ANALYTICS Puede ser confuso entender las diferencias entre estos dos conceptos, pues los dos se
encargan de analizar datos. Pero hay algunas diferencias que los distinguen:
La primera es que el data analytics se encarga de analizar los datos capturados sin recibir modificaciones o alteraciones para llegar a una conclusión y tomar decisiones del presente. En cambio, el data science se encarga de la preparación de los datos,
análisis de los resultados y predicciones con respecto a los mismos, éste se encarga de hacer preguntas futuras y data analytics se encarga de resolverlas.
CONCLUSIÓN Es muy importante conocer las distintas herramientas que tenemos para el análisis y el tratamiento de los datos ya que para representarlos de una manera gráfica debemos de conocer tanto lenguajes de programación, como otras métricas. También fue interesante el análisis exploratorio de datos ya que pudimos ganar intuición sobre estos y además
descubrir estructuras subyacentes en ellos, el proceso del análisis de datos es muy sencillo, además podemos ver que de ahí se desprende el análisis univariante y el multivariante, los cuales son muy importantes también. Pude concluir que la estadística descriptiva es de gran
ayuda dentro de este tema ya que todo se basa en la estadística y en los diferentes tipos que tenemos para representar los datos