introducción al procesamiento de datos con python ( y otras cosas… ) Ricardo Vega - ricardov.cl - @ricardov_cl v2 dic 2020 (v1 nov 2020) | Creative Commons - Attribution-NonCommercial-NoDerivatives 4.0 International
link descarga de datos y ejercicios:
bit.ly/38FZ0uh
datos de exoplanets.eu
como pasar de esto...
a esto...
visualización de exoplanetas, 2014
Tener datos no necesariamente es tener información. Conocimiento de dominio
Conocimiento de Dominio
Computación
Estadística
Diseño
Visualización de Datos
Diseño
Conocimiento de Dominio
Computación
Estadística
Narrativa Comunicación Codificación Visual Objetivos Usuarios y Contextos Usabilidad y Testeo Delivery ...
Experiencias Conceptos Problemas Objetivos Métodos ...
Entornos Lenguajes Algoritmos Tecnologías Soportes Medios Procesos ...
Descriptiva/Inferencial Análisis Tipo de datos EDA Estadísticos principales ...
Convergencia de 4 áreas
grandes categorías de datos...
estructurados:
no estructurados:
con estructuras reconocibles en formatos tabulares u otros.
sin estructuras reconocibles o muy variables elementos discretos (símbolos separados) poco distinguibles generalmente textos, conjuntos de imágenes, etc
https://www.anaconda.com
paquete con herramientas para trabajar con datos
Anaconda: ¿Qué es Anaconda.
Anaconda es un entorno de programación de descarga gratuita que permite instalar desde un mismo paquete, un grupo de herramientas para ciencia de datos. Esto ayuda a evitar instalaciones separadas de los diversos elementos que se requieren para análisis de datos
Anaconda: ¿Por qué Anaconda?
Al instalar Anaconda en nuestro computador, se instalarán los siguientes elementos (entre otros): Lenguaje Python: la versión actualizada de Python. Editor de texto: Anaconda también trae algunos editores que nos permitirá programar las instrucciones para procesar datos. Jupiter Notebook: este es uno de los editores que se instalan con Anaconda y que se usarán para los ejercicios. otros: también se instalan librerías útiles como Pandas (para manejar datos) y MatPlotLib (para visualización)
EDITORES DE CÓDIGO: PROGRAMAR Y TRABAJAR CON DATOS
Editores de Código:
x
Por qué editores de código y no editores de ofimática.
Cuando usamos un editor de ofimática (Word u otros similares) nos puede dejar metadatos escondidos sobre formatos (negritas, itálicas, colores, etc) que ensucian los datos. Por esto es recomendable no abrir los datos con editores de texto enriquecido. Es mejor abrirlos con editores de código, que si bien muestran en texto con colores o estilos como itálicas, estos solo es una previsualización, o sea, se muestra así pero no se guardan datos sobre estos estilos. Otro tema importante es que esta herramientas también nos permiten editar código, por ejemplo, para editar código HTML y CSS que son lenguajes para la creación de páginas web.
Editores de Código:
Para explorar los datos existen muchas herramientas, pero en estos casos podemos trabajar con un archivo de texto básico. Necesitamos instalar un editor de código, que además de servirnos para programar, también nos permitirá ver los datos y su estructura.
Editores de Código: Usar con archivos de programación.
Puede abrir algún archivo de programación con el editor escogido. Hay varios formatos que se pueden abrir, por ejemplo: .py = extensión de los archivos Python. .htm o.html = extension de archivos HTML usados para la estructura de las páginas web. .css = extensión de archivos HTML usados para dar formato y diseño visual a páginas web. .javascript = extensión de archivos HTML usados para generar comportamiento en las páginas web.
Editores de Código: Usar con archivos de datos.
Puede abrir algún archivo de programación con el editor escogido. Hay varios formatos que se pueden abrir, por ejemplo: .csv - datos separados por coma. .tsv - datos separados por tab. .xml - archivos de Extensible Markup Language. .json - archivos de JavaScript Object Notation.
lenguaje
editor
python javascript html c++ ...
sublime vim atom ...
Lenguaje (palabras y reglas que componen un lenguaje de programación)
Editor (cuaderno para escribir los programas o ver los datos sin agregar metadatos)
EDITOR: JUPYTER NOTEBOOK
Sobre Jupyter Notebook.
ANÁLISIS DE DATOS: Proceso general a) Preguntas iniciales: ¿Qué nos interesa saber? b) Adquisición y Preparación de datos: c) Exploración (EDA): d) Conclusiones y reporte:
a) Preguntas iniciales: -Qué nos interesa hacer. -Por qué tenemos estos datos, para qué.
b) Adquisición y Preparación de datos: -Adquisición: recopilar o adquirir los datos. -Reconocer: exploraciones iniciales, describir, detectar anomalías, número como string, NAN, Varios, etc. -Limpiar: sacar vacíos, pos de datos. -Formatear: estructura apropiada (bag of words, tabla, document terms matrix). -Guardar: Los datos limpios y listos, se recomienda guardarlos para la siguiente etapa de análisis.
c) Exploración (EDA) -Análisis (EDA): Preguntas iniciales, observaciones y descubrimientos. -Observaciones: Estadísticos Descriptivos, head, tail, Describe. -Filtrar:quedarnos con lo que nos interesa para analizar. -Visualizaciones iniciales, búsqueda de patrones,
d) Conclusiones y reporte: -Desarrollo de informe de datos con principales gráficos y descubrimientos -Descubrimientos: Resumen -Visualizaciones: seleccionar, mejorar y adecuar las visualizaciones pertinentes.
Gracias!