RUTA DE HOY… –GENERALIDADES DE LOS DATOS –OBTENCIÓNa–REPOSITORIOS ABIERTOS c–EXTRAERb–ENCUESTASDE PDF (Tabula) d–EXTRACCIÓN DE TABLAS HTML e–SERVICIOS DE EXTRACCIÓN f–WEB SCRAPING h–Otrosg–API
GENERALIDADES DE LOS DATOS OBTENCIÓNa–REPOSITORIOS ABIERTOS c–EXTRAERb–ENCUESTASDE PDF (Tabula) d–EXTRACCIÓN DE TABLAS HTML e–SERVICIOS DE EXTRACCIÓN f–WEB SCRAPING h–OTROSg–API
Todaslastardestardesimaginarias subelasescalerasimaginarias yseasomaalbalcónimaginario amirarelpaisajeimaginario queconsisteenunvalleimaginario circundadodecerrosimaginarios Sombrasimaginarias vienenporelcaminoimaginario entonandocancionesimaginarias alamuertedelsolimaginario Yenlasnochesdelunaimaginaria sueñaconlamujerimaginaria quelebrindósuamorimaginario vuelveasentiresemismodolor esemismoplacerimaginario
Elhombreimaginario N.Parra Elhombreimaginario viveenunamansiónimaginaria rodeadadeárbolesimaginarios alaorilladeunríoimaginario Delosmurosquesonimaginarios pendenantiguoscuadrosimaginarios irreparablesgrietasimaginarias querepresentanhechosimaginarios ocurridosenmundosimaginarios enlugaresytiemposimaginarios
no estructurados sin estructuras reconocibles o muy variables elementos discretos (símbolos separados) poco distinguibles generalmente textos, conjuntos de imágenes, etc grandes categorías de datos... estructurados tienen estructuras reconocibles como tablas y columnas elementos discretos (símbolos separados) muy generalmentedistinguibles en BBDD o archivos tsv, csv, json, xml...
formatos de archivos de datos tabular - dispuestos en columnas y filas (excel?) .csv - comma separated values .tsv - tab separated values .xml - extensible markup language .json - javascript object notation apis… - Application Programming Interface
untidy United Nations’ migration data Estructuras: Tidy Data
tidy Estructuras: Tidy Data
4.DisponiblesAccesiblespara la
8.- Libres
6.- No Disponiblesdiscriminatoriosacualquier
7.-
Hacia un ecosistema de datos en la fuente, alta granularidad. tan pronto como sea necesario. gama más amplia de usuarios y por máquinas razonablemente para permitir el procesamiento automatizado. persona, sin registro. No Disponiblespropietariosenformato abierto no controlado por entidad (no propietario). de licencia No sujetos a ningún derecho de autor, patentes, marcas o regulación. En todos hay consideraciones razonables de privacidad y seguridad.
3.- Oportunos A disposición
abiertos 1.TodosCompletoslosdatos públicos a libre disposición. 2.- Primarios Se recogen
Estructuran
propósitos. Los 8 principios básicos de los datos abiertos. 5.- Procesables
GENERALIDADES DE LOS DATOS OBTENCIÓNa–REPOSITORIOS ABIERTOS c–EXTRAERb–ENCUESTASDE PDF (Tabula) d–EXTRACCIÓN DE TABLAS HTML e–SERVICIOS DE EXTRACCIÓN f–WEB SCRAPING h–OTROSg–API
Obtención: a–repositorios abiertos CIENCIAS Dryad– foco científico y médico – https://datadryad.org/stash/ Harvard Dataverse – Repositorio general – https://dataverse.harvard.edu/ ICPSR – Repositorio general, foco en ciencia sociales – https://www.icpsr.umich.edu/web/pages/ Mendeley Data – Repositorio general – https://www.mendeley.com/?interaction_required=true VARIOS Naciones Unidas – https://www.un.org/es/library/page/databases UNIBE – https://unibe.libguides.com/az.php FAO – http://www.fao.org/statistics/databases/es/ Plataformas con acceso a datos curados y estructurados. Muy variadas, pueden ser muy específicas. Generalmente en formatos interoperables y abiertos de fácil descarga. Entidades públicas con datos de libre descarga.
GENERALIDADES DE LOS DATOS OBTENCIÓNa–REPOSITORIOS ABIERTOS c–EXTRAERb–ENCUESTASDE PDF (Tabula) d–EXTRACCIÓN DE TABLAS HTML e–SERVICIOS DE EXTRACCIÓN f–WEB SCRAPING h–OTROSg–API
Obtención: b–encuestas Gran cantidad de opciones para la realización de encuestas Para diferentes objetivos y niveles de especialización Limesurvey –GoogleFormsJotFormSurveyMonkeyhttps://www.limesurvey.org/es/–https://es.surveymonkey.com/–https://www.jotform.com/–https://www.google.com/forms/about/
Obtención: b–encuestas Visualización como oportunidad en la recolección de datos. Dibujando el bienestar Manuela http://dibujandoelbienestar.cl/MetodologíaGarretónvisual R. Vega, P. Grant, P. Tello, C. Tapia Encuesta http://c80.cl/activa Proyectos varios José VisualizaciónDuarte joseduarteq/https://www.flickr.com/photos/física
GENERALIDADES DE LOS DATOS OBTENCIÓNa–REPOSITORIOS ABIERTOS c–EXTRAERb–ENCUESTASDE PDF (Tabula) d–EXTRACCIÓN DE TABLAS HTML e–SERVICIOS DE EXTRACCIÓN f–WEB SCRAPING h–OTROSg–API
tabula – permite extraer tablas de archivos PDF Abre una dirección local en nuestro browser. –ver carpeta correspondiente, seleccionar tabla página 5, guardar. http://tabula.technology/ Obtención: c–extraer de pdf
GENERALIDADES DE LOS DATOS OBTENCIÓNa–REPOSITORIOS ABIERTOS c–EXTRAERb–ENCUESTASDE PDF (Tabula) d–EXTRACCIÓN DE TABLAS HTML e–SERVICIOS DE EXTRACCIÓN f–WEB SCRAPING h–OTROSg–API
Desde Wikipedia y otros html hacia Google Spreadsheet -Abrir una hoja de cálculo -Colocar función y la dirección web correspondiente. a_Copa_Mundial_de_Fútbol=ImportHTML("https://es.wikipedia.org/wiki/Anexo:Goleadores_de_l";"table";3) Obtención: d–extracción tablas html erico&id=215https://historico.servel.cl/servel/app/index.php?r=EleccionesGen =ImportHTML( "url"; "tipo"; número de tabla ) =importHTML("https://historico.servel.cl/servel/app/index.php?r=EleccionesGenerico&id=215","table",1)
GENERALIDADES DE LOS DATOS OBTENCIÓNa–REPOSITORIOS ABIERTOS c–EXTRAERb–ENCUESTASDE PDF (Tabula) d–EXTRACCIÓN DE TABLAS HTML e–SERVICIOS DE EXTRACCIÓN f–WEB SCRAPING h–OTROSg–API
Obtención: e–servicios de extracción Existen servicios para extraer datos desde las web, generalmente como web Serviciosscraping. que permiten de manera fácil e intuitiva obtener datos desde plataformas web. Permite extracción fácil de datos con una interface visual. Import.io https://webscraper.io/Webscraperhttps://www.octoparse.comOctoparsehttps://www.import.io–
Obtención: e–servicios de extracción Los sistemas seleccionan elementos de la página y los extraen.
Obtención: e–servicios de extracción Extensiones para navegadores Webscraper para Chrome https://www.webscraper.io/test-sites/e-commerce/allinoneSitioe=addons.mozilla.org&utm_medium=referral&utm_content=searchhttps://addons.mozilla.org/es/firefox/addon/web-scraper/?utm_sourcWebscrapera/jnhgnonknehpejjnehehllkliplmbmhnhttps://chrome.google.com/webstore/detail/web-scraper-free-web-scrVideoa/jnhgnonknehpejjnehehllkliplmbmhnhttps://chrome.google.com/webstore/detail/web-scraper-free-web-scr–ejemplo:paraFirefox–ejemplo:
GENERALIDADES DE LOS DATOS OBTENCIÓNa–REPOSITORIOS ABIERTOS c–EXTRAERb–ENCUESTASDE PDF (Tabula) d–EXTRACCIÓN DE TABLAS HTML e–SERVICIOS DE EXTRACCIÓN f–WEB SCRAPING h–OTROSg–API
Obtención: f–web scraping Es posible tomar control sobre el proceso de web scraping con librerías para lenguajes específicos. BeautifulSoup, librería scraping para Soup/bs4/doc/https://www.crummy.com/software/BeautifulPython. https://scrapy.org/Scrapy
Obtención: f–web scraping Importante conocer y navegar en la estructura web de la página que nos interesa. Estructura archivo html Estructura DOM <!DOCTYPE html> <html><head><title></title></head><body><h2>Elprimertítulo</h2><p>Esteesmipárrafosuper interesante.</p> <a href="http://www.c80.cl">Este es un link</a> <h3>El segundo título</h3> <ol> <li>Elemento uno</li> <li>Elemento dos</li> <li>Elemento tres</li> </html></body><img</ol>src="img/gatito01.jpg">
GENERALIDADES DE LOS DATOS OBTENCIÓNa–REPOSITORIOS ABIERTOS c–EXTRAERb–ENCUESTASDE PDF (Tabula) d–EXTRACCIÓN DE TABLAS HTML e–SERVICIOS DE EXTRACCIÓN f–WEB SCRAPING h–OTROSg–API
Permite conectarse a datos provistos por alguna institución u organización, sin entrar a su bbdd. Puede tener diferentes formatos de datos. Obtención: g–api (application programing interface)
API http://open-notify.org/Open-Notify-API/ISS-Location-Now/-http://api.sbif.cl/index.html-APIConstituciónConstituciónConstitución-https://pokeapi.co/api/v2/pokemon/https://pokeapi.co/api/v2/location-area/1/https://pokeapi.co/Pokemon:APIC80:80,completa:https://c80.cl/wp-json/constitucion1980/v1/constitucion80,capitulo1:https://c80.cl/wp-json/constitucion1980/v1/capitulo/180,articulo1:https://c80.cl/wp-json/constitucion1980/v1/articulo/1exSBIF:LocalizacióndelaEstaciónEspacialInternacional: Existe una gran diversidad de opciones Obtención: g–api (application programing interface)
<script> //esta funcion cargar la api usando fetch() functionfetch(api(){'https://mindicador.cl/api/dolar' ) //direccion url donde esta la api. .then( res => res.json()) .then(data => console.log({ data ) //lo muestra en la consola }) }; </script> fetch función para llamar una url mostrar en consolala Para web, javascript nos permite hacer llamados para obtener los datos. Obtención: g–api (application programing interface)
Pueden explorar otras apis como la de Twitter para lo cual deben hacer una cuenta y sacar keys para usarla. Obtención: g–api (application programing interface) https://developer.twitter.com/en/docs/twitter-api ● Tweets ● Users ● Direct Messages ● Lists ● Trends ● Media ● Places
GENERALIDADES DE LOS DATOS OBTENCIÓNa–REPOSITORIOS ABIERTOS c–EXTRAERb–ENCUESTASDE PDF (Tabula) d–EXTRACCIÓN DE TABLAS HTML e–SERVICIOS DE EXTRACCIÓN f–WEB SCRAPING h–OTROSg–API
NewsBlur – https://newsblur.com Feedreader – https://feedreader.com
Otras opciones son los canales RSS, que disponen datos para consultar con algún lector RSS Obtención: h–otros (RSS...)
Estos íconos indican que el sitio tiene canales RSS. SIno, puede probar agregando esto al final de la url: rss Estos servicios permiten leer los canales RSS. Para esto basta copiar el link y pegarlo en donde se indique en cada servicio:
Generalmente los periódicos tienen canales RSS para distintas categorías: cultura, deportes, actualidad,
https://www.theguardian.com/uk/culture/rsshttps://www.theguardian.com/uk/rsshttps://www.elmostrador.cl/destacado/feed/etc.
GRACIAS!