Algunas reflexiones sobre el Consumo de Datos PĂşblicos
Eduardo Poggi (eduardopoggi@yahoo.com.ar)
La Plata, octubre de 2012
Objetivo
nď Žâ€Ż
Entender el Consumo de Datos como un derecho que se debe ejercer con responsabilidad.
Temario
n
Entender el Consumo de Datos
n
Data Journalism
n
Ejemplos
n
Conclusiones y reflexiones
Temario
n
Entender el Consumo de Datos
n
Data Journalism
n
Ejemplos
n
Conclusiones y reflexiones
Entender el Consumo de Datos
n
Partamos de: n
n
n
n
n
El esfuerzo de las Administraciones en publicar datos aporta valor público cuando estos son reutilizados por actores sociales. La utilización no es directa y simple, requiere de cierto procesamiento para lograr efectos interesantes. El procesamiento requiere de cierta capacidad para realizarlo correctamente. No hay –en principio- una organización social capacitada que lo reciba directamente. Análogamente a la Publicación, el Consumo de datos presenta también un abanico de formas de realizarse y una serie de etapas que debieran cumplirse.
Entender el Consumo de Datos n
El consumo de Datos Públicos debería cumplir etapas: 1. Obtener los datos: n
n
Seguramente no basta con una sola fuente sino de un conjunto -homogéneo o no- de datos publicados por la misma o por distintas organizaciones. Asegurar el derecho a utilizar los datos.
2. Procesar los datos: n
n
Analizar, entender, limpiar, relacionar de forma transparente, reproducible y auditable. El no entendimiento de los datos puede generar malos resultados.
3. Publicar, presentar y legar los resultados (o no). 4. Hacerse cargo de lo realizado, en particular, ser responsables de una retroalimentación a las fuentes.
Entender el Consumo de Datos
n
En los últimos años se ha ido formando una disciplina denominada Data Driven Journalism o Periodismo de Datos que, en su evolución, le está dando la forma de disciplina al tratamiento de Datos Públicos. n Esto no quiere decir que solo el periodismo profesional pueda consumir datos públicos. n
La forma que hoy por hoy se presenta como correcta es la que se va estableciendo bajo esta disciplina.
Entender el Consumo de Datos
n
n
Un ejemplo clásico en la agenda del Presidente Obama, desarrollado por el Washington Post que muestra la importancia de las cuestiones a abordar por el presidente durante sus viajes, como se ve en la siguiente imagen. www.internetactu.net/ 2010/07/09/journaliste-dedonnees-data-as-storytelling/
Temario
n
Entender el Consumo de Datos
n
Data Journalism
n
Ejemplos
n
Conclusiones y reflexiones
Data Journalism
n
n
n
n
Las tecnologías de la información están cambiando fundamentalmente la forma como se publica la información pública. El consumo abierto y responsable puede generar Valor Público. El Periodismo de Datos es una parte del ecosistema de herramientas y prácticas que han surgido alrededor de la Publicación de Datos. El Periodismo de Datos tiene un papel importante para ayudar a reducir las barreras a la comprensión de los datos y a aumentar la datalfabetización de los lectores en una escala masiva.
Data Journalism
n
El Valor Público estará dado fundamentalmente por: n
n
n
La recopilación y el relacionamiento de diversas fuentes de datos no relacionados previamente. El procesamiento de los datos que permita sintetizarlos (deductivamente) o generalizarlos (inductivamente) para explicitar conocimiento subyacente antes implícito. La visualización adecuada que permita que esta información “penetre” en el usuario de una manera física, sensorial y hasta irracional.
Data Journalism
n
n
Bajo el concepto de Data Journalism se ha ido estableciendo una metodología para este tipo de actividades. Un “manual” incipiente se ha publicado en Internet, cuya síntesis se muestra en la siguiente imagen. www.datajournalismhandbook. org
DJ – Obtener los datos
n
Podríamos considerar tres fuentes primarias de datos: n
Datos publicados específicamente : n
n
Datos obtenidos por solicitudes específicas: n
n
Entidades de datos propias de los procesos de Publicación de Datos generalmente accesibles en sitios específicos (Portales de Datos) o en sitios institucionales. Datos entregados a un solicitante por algún pedido específico que no son normalmente publicados.
Datos recuperados de fuentes no específicas: n
Obtenidos por procesamiento de otras fuentes o capturados de consultas a páginas Web.
DJ – Obtener los datos
n
Portales de datos oficiales n n n n n n n
n
Por ejemplo: data.gov de EEUU y data.gov.uk del Reino Unido. datacatalogs.org thedatahub.org Sitios de organismos multinacionales. Comunidades sobre el intercambio de datos: buzzdata.com Tiendas de datos: www.infochimps.com y datamarket.com. getthedata.org: hacer preguntas sobre datos relacionados.
Obtener datos de la Web n
n
“raspar” (en inglés: (Web) Scraping) las páginas para ir recuperando y estructurando los datos y dejarlos de forma procesable. scraperwiki.com es un sitio Web que te permite codificar raspadores en una serie de diferentes lenguajes de programación (Python, Ruby y PHP).
DJ – Asegurar el derecho
n
Asegurar los derechos sobre los datos: n n
n
n n
La disponibilidad de datos no asegura el derecho a usarlos. Una entidad de datos puede estar sujeta a derechos de autor, igual que un trabajo creativo. Las concesiones se realizan mediante la liberación de la base de datos bajo una licencia pública, al igual que los programadores pueden liberar su código bajo una licencia de código abierto. La variedad de licencias de códigos y de datos parece infinita. Lo que si es esencial es que antes de usar los datos se debe estar seguro de poder hacerlo y/o tomar los recaudos pertinentes.
DJ – Procesar los datos (los datos cuentas historias)
n
Se solía decir de la estadística que es la disciplina de “torturar” datos hasta que expresen algo interesante que parezca ser verdad. Hoy podría decirse lo mismo del procesamiento moderno de datos, solo que con muchas herramientas que complementan a la estadística.
DJ – Procesar los datos (tipos de procesamiento) Tradicional
Aproximado
Propio de la informática, de la matemática Típico del Aprendizaje Automático y la en general y de la estadística en particular. Inteligencia Artificial. Basado en la deducción como método de inferencia.
Basado en el uso de la inducción y la abducción como métodos de inferencia.
Exacto, predecible, repetible y determinístico.
No determinístico y aproximado; por lo tanto.
Preserva la verdad.
Conjetural, sujeto a pruebas para validar los resultados.
Disciplinas dentro de la Ingeniería y la Matemática.
Disciplinas dentro de Ciencias de la Computación como “Minería de Datos”.
Aporta la capacidad de relacionar datos de distintas fuentes, de fíltralos, seleccionarlos y hacer cálculos sobre estos.
Permite generar patrones, extraer reglas generales y probables a partir de instancias específicas, detectar agrupamientos o similitudes o realizar analogías.
DJ – Procesar los datos (los datos cuentas historias)
n
Así como … n
n
n
las fuentes deben ser legítimas (no inventadas o adecuadas a nuestro gusto por ejemplo) el procesamiento también debe seguir las buenas prácticas en la materia. las investigaciones científicas son realizadas siguiendo las prácticas establecidas por el “estado del arte” con los recaudos adecuados y la documentación pertinente y transparente; debe ser el consumo. se exige a los organismos la publicación de sus datos con estándares de calidad y seguridad, el consumo de datos públicos debe ser hecho respetando las buenas prácticas de la disciplina.
DJ – Procesar los datos (los datos cuentas historias)
n
La Gobernanza de Datos es una disciplina emergente con una definición de desarrollo.
n
Su práctica es vieja como la informática.
n
Representa una convergencia de: n n n n
n
n
calidad, seguridad y servicio; políticas y gestión de datos; gestión de procesos de negocio; gestión de riesgos.
Persigue ejercer un control positivo sobre los procesos y métodos utilizados por los administradores de datos. Conjunto de procesos que asegura que los de datos que se administran cumplen con las garantías de calidad, actualización y seguridad adecuadas y por lo tanto son confiables para su uso, particularmente para la toma decisiones.
DJ – Publicar los resultados (la publicación de la historia)
n
n
n
La visualización de datos es una disciplina transversal que utiliza el enorme poder de comunicación de las imágenes para explicar de manera comprensible las relaciones de significado, causa y dependencia que se pueden encontrar entre las grandes cantidades de datos. El objetivo principal de la visualización es comunicar información de forma clara y eficaz a través de medios gráficos. Para transmitir ideas de manera efectiva, la estética y la funcionalidad van de la mano para proporcionar información generada a partir de datos de una manera intuitiva.
Temario
n
Entender el Consumo de Datos
n
Data Journalism
n
Ejemplos
n
Conclusiones y reflexiones
Ejemplo
n
n
MySociety desarrolló hace años este proyecto que ilustra perfectamente la utilidad de cruzar datos urbanos con la localización física. La herramienta Mapumental permite visualizar el tiempo de transporte para llegar a un punto de determinado desde cualquier lugar de la ciudad, ayudando con ello a entender la distancia temporal de movilidad, mucho más útil y práctica que la distancia física. www.ateneonaider.com
Ejemplo
n
n
La población de nueva York durante el día y durante la noche, reflejando la densidad de las diferentes zonas. www.ateneonaider.com
Temario
n
Entender el Consumo de Datos
n
Data Journalism
n
Ejemplos
n
Conclusiones y reflexiones
Reflexiones finales
n
Las tareas relacionadas al Consumo de Datos tienen ciertas consideraciones no triviales: n
n
n
n
n
n
Difícilmente las pueda realizar una sola persona, dada la variedad de capacidades que requiere seguramente debe ser desarrollada por un equipo. Requiere de competencias propias de: Ciencias de la computación, Data Mining, Estadística, Diseño Gráfico y Visualización, Periodismo, … y conocimiento del negocio. Difícilmente se puede obviar alguna, el natural desarrollo requiere del aporte de cada una de las etapas para lograr un resultado interesante. La secuencia no es lineal, las etapas no se encadenan secuencialmente uniendo el fin de una con el inicio de la otra. Se superponen, se cruzan y se reordenan hasta encontrar –o no- el camino correcto. No son triviales ya que cada una requiere de rigurosidad, como lo exigen los trabajos periodísticos o académicos serios con sus correspondientes prácticas profesionales. El “rol del periodista” es el que le da ilación y sentido al resto para que todo el proceso finalice en un producto interesante para el público objetivo.
Reflexiones finales
n
La Publicación de Datos, más allá de su objetivo de transparencia, puede ser vista como Obra Pública con el consecuente impacto económico en la sociedad.
Pr贸ximos pasos
驴y ahora?
Referencias específicas n
n n
n
n
n n
n n n
Concha, Gastón y Naser, Alejandra (ed.) (2012): “El desafío del Gobierno Abierto en la hora de la igualdad”. CEPAL, Santiago, marzo de 2012. http://www.eclac.org/cgi-bin/getProd.asp?xml=/publicaciones/xml/9/46119/ P46119.xml&xsl=/ddpe/tpl/p9f.xsl&base=/socinfo/tpl/top-bottom.xsl Data Journalism Handbook 1.0 Beta, datajournalismhandbook.org Guillaud, Hubert (19/07/11): Les données pour comprendre le monde. www.internetactu.net/2011/07/19/les-donnees-pour-comprendre-le-monde/ Guillaud, Hubert (27/07/11): L’avenir de la réutilisation des données publiques. www.internetactu.net/2011/07/27/lavenir-de-la-reutilisation-des-donnees-publiques/ Guillaud, Hubert (9/07/11): Journaliste de données : data as storytelling. www.internetactu.net/2010/07/09/journaliste-de-donnees-data-as-storytelling/ Wikipedia, es.wikipedia.org Poggi, Eduardo (2012): “Implementando el Consumo de Datos”. Material del curso virtual “Gobierno abierto, transparencia y acceso a datos públicos” dictado por Germán Stalker y Eduardo Poggi en www.top.org.ar, edición 2012. 2012 Data Journalism Awards: http://datajournalismawards.org/ Journalism in de Age of Data: http://datajournalism.stanford.edu/ Data Scientists: http://www.datascientists.net