Datos preparación y limpieza básica con Python

Page 1

introducción al procesamiento de datos con python ( y otras cosas… ) Ricardo Vega - ricardov.cl - @ricardov_cl v2 dic 2020 (v1 nov 2020) | Creative Commons - Attribution-NonCommercial-NoDerivatives 4.0 International


link descarga de datos y ejercicios:

bit.ly/38FZ0uh


datos de exoplanets.eu

como pasar de esto...


a esto...

visualización de exoplanetas, 2014


Tener datos no necesariamente es tener información. Conocimiento de dominio

Conocimiento de Dominio

Computación

Estadística

Diseño

Visualización de Datos

Diseño

Conocimiento de Dominio

Computación

Estadística

Narrativa Comunicación Codificación Visual Objetivos Usuarios y Contextos Usabilidad y Testeo Delivery ...

Experiencias Conceptos Problemas Objetivos Métodos ...

Entornos Lenguajes Algoritmos Tecnologías Soportes Medios Procesos ...

Descriptiva/Inferencial Análisis Tipo de datos EDA Estadísticos principales ...

Convergencia de 4 áreas


grandes categorías de datos...

estructurados:

no estructurados:

con estructuras reconocibles en formatos tabulares u otros.

sin estructuras reconocibles o muy variables elementos discretos (símbolos separados) poco distinguibles generalmente textos, conjuntos de imágenes, etc


https://www.anaconda.com

paquete con herramientas para trabajar con datos


Anaconda: ¿Qué es Anaconda.

Anaconda es un entorno de programación de descarga gratuita que permite instalar desde un mismo paquete, un grupo de herramientas para ciencia de datos. Esto ayuda a evitar instalaciones separadas de los diversos elementos que se requieren para análisis de datos


Anaconda: ¿Por qué Anaconda?

Al instalar Anaconda en nuestro computador, se instalarán los siguientes elementos (entre otros): Lenguaje Python: la versión actualizada de Python. Editor de texto: Anaconda también trae algunos editores que nos permitirá programar las instrucciones para procesar datos. Jupiter Notebook: este es uno de los editores que se instalan con Anaconda y que se usarán para los ejercicios. otros: también se instalan librerías útiles como Pandas (para manejar datos) y MatPlotLib (para visualización)


EDITORES DE CÓDIGO: PROGRAMAR Y TRABAJAR CON DATOS


Editores de Código:

x

Por qué editores de código y no editores de ofimática.

Cuando usamos un editor de ofimática (Word u otros similares) nos puede dejar metadatos escondidos sobre formatos (negritas, itálicas, colores, etc) que ensucian los datos. Por esto es recomendable no abrir los datos con editores de texto enriquecido. Es mejor abrirlos con editores de código, que si bien muestran en texto con colores o estilos como itálicas, estos solo es una previsualización, o sea, se muestra así pero no se guardan datos sobre estos estilos. Otro tema importante es que esta herramientas también nos permiten editar código, por ejemplo, para editar código HTML y CSS que son lenguajes para la creación de páginas web.


Editores de Código:

Para explorar los datos existen muchas herramientas, pero en estos casos podemos trabajar con un archivo de texto básico. Necesitamos instalar un editor de código, que además de servirnos para programar, también nos permitirá ver los datos y su estructura.


Editores de Código: Usar con archivos de programación.

Puede abrir algún archivo de programación con el editor escogido. Hay varios formatos que se pueden abrir, por ejemplo: .py = extensión de los archivos Python. .htm o.html = extension de archivos HTML usados para la estructura de las páginas web. .css = extensión de archivos HTML usados para dar formato y diseño visual a páginas web. .javascript = extensión de archivos HTML usados para generar comportamiento en las páginas web.


Editores de Código: Usar con archivos de datos.

Puede abrir algún archivo de programación con el editor escogido. Hay varios formatos que se pueden abrir, por ejemplo: .csv - datos separados por coma. .tsv - datos separados por tab. .xml - archivos de Extensible Markup Language. .json - archivos de JavaScript Object Notation.


lenguaje

editor

python javascript html c++ ...

sublime vim atom ...

Lenguaje (palabras y reglas que componen un lenguaje de programación)

Editor (cuaderno para escribir los programas o ver los datos sin agregar metadatos)


EDITOR: JUPYTER NOTEBOOK


Sobre Jupyter Notebook.


ANÁLISIS DE DATOS: Proceso general a) Preguntas iniciales: ¿Qué nos interesa saber? b) Adquisición y Preparación de datos: c) Exploración (EDA): d) Conclusiones y reporte:


a) Preguntas iniciales: -Qué nos interesa hacer. -Por qué tenemos estos datos, para qué.


b) Adquisición y Preparación de datos: -Adquisición: recopilar o adquirir los datos. -Reconocer: exploraciones iniciales, describir, detectar anomalías, número como string, NAN, Varios, etc. -Limpiar: sacar vacíos, pos de datos. -Formatear: estructura apropiada (bag of words, tabla, document terms matrix). -Guardar: Los datos limpios y listos, se recomienda guardarlos para la siguiente etapa de análisis.


c) Exploración (EDA) -Análisis (EDA): Preguntas iniciales, observaciones y descubrimientos. -Observaciones: Estadísticos Descriptivos, head, tail, Describe. -Filtrar:quedarnos con lo que nos interesa para analizar. -Visualizaciones iniciales, búsqueda de patrones,


d) Conclusiones y reporte: -Desarrollo de informe de datos con principales gráficos y descubrimientos -Descubrimientos: Resumen -Visualizaciones: seleccionar, mejorar y adecuar las visualizaciones pertinentes.


Gracias!


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.