Ejercicios de Extraccion de datos

Page 1

Ejercicios Taller Periodismo de Datos Datos abiertos, cerrados y extracción: modelos básicos usando Excel Fellowship Sandra Crucianelli scrucianelli@icfj.org Ejemplo Datos Cerrados http://www.mosp.gba.gov.ar/informacion/tvr/157_%20tablas%20Febrero%202012. pdf Precios de contratos de obra pública: es el PDF de una imagen: al descargar el documento en la PC y abrirlo con Adobe Profesional, la extracción de datos no funciona. Las tablas son imágenes incrustadas en el texto. Se requiere programa profesional OCR para la extracción de los datos o asistencia de un programador. Para solo texto http://www.cnc.gov.ar/NORMATIVA/SC0117_11.pdf Descargar PDF en la PC, extraer el texto usando herramienta gratuita: http://www.free-ocr.com/ (no recupera tablas, solo texto)

Ejemplo datos semi abiertos vía exportación Adobe Profesional www.vivienda.gov.ar Construcción de Viviendas: Copiar dirección del enlace con el botón derecho del mouse del primer documento (PDFREACT I yII) 1


Descarga en formato ZIP (comprimido), se abre en PDF y se exporta desplegando “more formats” en formato HTML 3.2. De allí se copia y pega en Excel. Cita de la fuente: ¿Cuál es la dirección del enlace? = botón derecho, copiar dirección del enlace para insertar en hipertexto: http://www.vivienda.gov.ar/reactivacion/avance/PFREACT2_300412.zip

Usando Zamzar: conversor de formatos www.zamzar.com Datos: www.vivienda.gov.ar Construcción de Viviendas: Descargar último documento CARITAS 300-412 en formato ZIP (comprimido) a PDF en la PC Subir el archivo seleccionado (no se ve en el cuadro de texto, pero lo tomó), seleccionar formato xls y enviar a email. Notificación positiva indica: File upload complete Your file has succesfully finished uploading ! Revisar email y descargar el link. Cita de la fuente: ¿Cuál es la dirección del enlace? = botón derecho, copiar dirección del enlace para insertar en hipertexto: http://www.vivienda.gov.ar/caritas/avance/CARITAS_300412.zip

Ejemplo documento semi abierto http://www.dnrpa.gov.ar/valuacion/informacion/03-01-2012.pdf Abrir Excel Copiar + Pegar La información aparece sin estructura Ir a la pestaña DATOS + TEXTO EN COLUMNAS 2


DELIMITADOS = siguiente TABULACION + COMA + ESPACIO = siguiente La información desestructurada, vuelve a tomar estructura GENERAL Finalizar

Copiar y pegar: pero borrando formato http://www.anses.gov.ar/trabajadores-actividad/asignacionesfamiliares/montos.php Copiar y pegar en Excel copia formato. A la derecha, borrar formatos

Un caso de tabla con variables al revés http://www.garrahan.gov.ar/index.php/hospital/indicadores-de-produccion Copiar + pegar + invertir orden = sumar totales Promedio fila Minimo número Máximo número

Cálculo de variaciones Porcentuales Beneficiarios del seguro de desempleo por provincia. Total del país. A diciembre de 2006-2010 y junio de 2011 Premisa: ¿Cuál fue la provincia que mayor aumento porcentual registró? De esto: http://www.indec.gov.ar/nuevaweb/cuadros/4/c030406.xls 3


a esto: https://docs.google.com/open?id=0BwX1zNUFm5hcQUM4TFdVZnBBb1U ¿Cómo se hace? Descargar documento + centrar información Premisa: Analizar variación 2010 con relación al 2006 Limpiar el documento: eliminar columnas 2007 al 2009 y parcial 2011 Fórmula: =Valor final/Valor inicial – 1 % Se copia el resultado de la primera celda Luego seleccionar el resto y pegar.

Extracción de datos usando Junar http://www.junar.com/

Extracción desde una URL a Excel URL con datos a extraer: http://www.anses.gov.ar/trabajadores-actividad/asignaciones-familiares/montos.php

Pruebe Junar Gratis Login A la izquierda, en verde: clic en Collect Dataset Solapa: a Website Page Completar formulario Save as Draft (guardar como borrador) Tildar el archivo subido Create Data View Click sobre la tabla que quiero extraer, hasta que se pinte de color naranja 4


Next Save Draft (guardar borrador)

5


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.