tema6,Linked Data

Page 1

Linked Data [6.1] ¿Cómo estudiar este tema? [6.2] Principios básicos de Linked Data [6.3] Ejemplos de datasets en Linked Data

TEMA

[6.4] Guías para la creación de un dataset en Linked Data


Web semántica y tecnologías 2.0

Esquema

TEMA 6 – Esquema


Web semántica y tecnologías 2.0

Ideas clave 6.1. ¿Cómo estudiar este tema? Este tema presenta las ideas clave de la iniciativa Linked Data. Linked Data hace referencia a una serie de guías de buenas prácticas para conectar datos en la web procesables por las máquinas. Sus principios básicos fueron establecidos por el inventor de la World Wide Web, Tim Berners-Lee en una nota publicada en la web del W3C en el año 2006.

Estos principios básicos son: Usar URIs para identificar las cosas Usar URIs HTTP Ofrecer información sobre los recursos usando RDF Incluir enlaces a otros URIs

En una actualización posterior de la nota, identificaba un sistema de clasificación de los datos existentes en la web, siguiendo un ranking de una a cinco estrellas dependiendo de lo accesibles, procesables y enlazados que estuviesen esos datos. En la actualidad existen ya numerosos data sets, o conjuntos de datos, incluidos dentro de Linked Data. El punto de acceso de referencia a ellos es el archivo mantenido por la iniciativa CKAN, la cual los clasifica en las siguientes categorías: Cross-domain. Geographic data. Government. Media. Libraries and Education. Life Sciences Data. Retail and Commerce. User Generated Content and Social Media.

TEMA 6 – Ideas clave


Web semántica y tecnologías 2.0

La inserción de un data set en Linked Data requiere del cumplimiento de los principios anteriores. Existen una serie de recomendaciones y buenas prácticas que pueden resultar de utilidad para que la aplicación de esos principios sea realmente provechosa. Entre ellas podemos citar:

Sobre el uso de URIs: El ineludible principio básico de que estén basados en HTTP. Usar sólo espacios de nombres bajo nuestro control No incluir URIs que puedan depender de implementaciones concretas Usar identificadores que resulten naturales

Sobre el uso de RDF se establecen recomendaciones sobre las triplas que se deben devolver cuando se resuelve la URI de una entidad: Aquellas en las que el objeto sea un literal u otro recurso relacionado Aquellas en las que el recurso sea el objeto por estar relacionado con otras entidades. Las que describan recursos relacionados Las que describan la propia descripción o el data set del que forma parte

Sobre el establecimiento de enlaces:

Asegurarse recibir enlaces entrantes de fuentes reconocidas Establece enlaces salientes a fuentes reconocidas y de interés Seleccionar predicados en las triplas de los enlaces procedentes de vocabularios reconocidos

TEMA 6 – Ideas clave


Web semántica y tecnologías 2.0

Este tema tiene como finalidad que el alumno se familiarice con los conceptos básicos de Linked Data. Para su estudio se utilizará como referencia algunos de los capítulos del libro “Linked Data: Evolving the Web into a Global Data Space” escrito por Tom Health y Christian Bizer. El alumno puede comenzar por leer el primer capítulo de este libro que encontrará motivador para el lanzamiento de la iniciativa Linked Data. Los principios básicos de Linked Data se presentan en la sección siguiente de este tema. El alumno interesado puede complementar la lectura de esa sección con el capítulo 2 del libro de Health y Bizer, en donde encontrará un mayor detalle técnico sobre los principios básicos que rigen Linked Data. La sección 3 de este tema presenta algunos de los campos de aplicación más activos hasta la fecha, desde la administración digital a los medios de comunicación. El alumno puede leer los contenidos de esta sección y complementarla con el capítulo 3 del libro del Health y Bizer. En el capítulo 6 podemos encontrar algunas aplicaciones que se benefician de los data sets publicados en Linked Data. Finalmente la sección 4 resume algunas recomendaciones de deben seguirse para la creación de un “buen” data set en Linked Data. La lectura de esta sección debe complementarse con los capítulos 4 y 5 del libro de Health y Bizer. Sin embargo, solamente el alumno interesado debe detenerse en los detalles técnicos, puede por ejemplo saltarse las secciones 4.3 y 4.4. Es suficiente con la adquisición de los principales conceptos asociados a cada una de las buenas prácticas recomendadas.

6.2. Principios básicos de Linked Data El término Linked Data hace referencia a una serie de buenas prácticas para publicar y entrelazar datos en la web. Esta serie de buenas prácticas fue introducida, al igual que el término Linked Data, por el propio Tim Berners-Lee en una nota publicada en el sitio del W3C en el año 2006 y que se incluye aquí en la sección Lo + Recomendado. Estos principios básicos son: Usar URIs para identificar las cosas Usar URIs HTTP Ofrecer información sobre los recursos usando RDF Incluir enlaces a otros URIs

TEMA 6 – Ideas clave


Web semántica y tecnologías 2.0

La aplicación de estos principios fomentará el crecimiento de la Web, tanto a nivel de los documentos HTML (vista clásica de la Web), como a nivel de los datos expresados en RDF (vista de la Web Semática). Para conseguir tener los datos interconectados, como si la Web fuese una gran base de datos, se deben respetar los cuatro pasos anteriores. Gracias a esta interconexión, se permite reutilizar la información de cualquier manera esperada o inesperada, lo que ofrece un valor añadido a la Web. Usar URIs para identificar las cosas Al nombrar los conceptos o cosas mediante URIs, se ofrece una abstracción del lenguaje natural y así se consigue evitar ambigüedades y así ofrecer una forma estándar y unívoca para referirnos a cualquier recurso. Un ejemplo de esto puede observarse en la información geográfica. La posición de los lugares puede representarse mediante coordenadas, información que puede ser fácilmente interpretable por las personas o de forma automática. El problema surge cuando debemos referirnos a un lugar por su topónimo, ya que éste puede variar en función del idioma (Croacia, Croatia, Hrvatska, etc), de su representación (Republika Hrvatska, Rep. de Croacia, etc.), u otros factores (Croacia, antigua República Yugoslava). Si usásemos el nombre para referirnos a los lugares, las múltiples acepciones que podrían adoptar, dificultaría el tratamiento automatizado de la información. De esta forma,

si

utilizamos

un

identificador

único

como

http://dbpedia.org/resource/Croatia, cualquier aplicación se podría referir al mismo lugar, independientemente de la ambigüedad del lenguaje natural. Usar URIs HTTP Ya que existen muchos esquemas de URIs, se pretende el uso de URIs sobre HTTP (p.e. http://dbpedia.org/resource/Croatia) para asegurar que cualquier recurso pueda ser buscado y accedido en la Web. Debe tenerse en cuenta que los URIs no son sólo direcciones, son identificadores de los recursos.

TEMA 6 – Ideas clave


Web semántica y tecnologías 2.0

Ofrecer información sobre los recursos usando RDF Una vez que se busca y se accede a un recurso identificado mediante una URI HTTP, se debe obtener información útil sobre dicho recurso, representada mediante descripciones estándares en RDF. Se pretende que para cualquier conjunto de datos o vocabulario, se ofrezca información relativa a la información que representa. De esta forma, si una aplicación desea obtener información sobre un concepto identificado mediante una URI, cuando hace una llamada HTTP para obtener el recurso, debería obtener información fácilmente procesable en formato RDF. De la misma forma, si se proveen puntos de consulta avanzada, como SPARQL, el resultado ante una consulta podrá ser interpretado de forma automática. El recurso que identifica a “Croacia” incluye información sobre esta nación. Si cualquier aplicación quisiera hacer uso de la información que provee la DBpedia sobre este recurso,

simplemente

debería

obtener

el

recurso

identificado

como

“http://dbpedia.org/resource/Croatia” y obtendría todos los datos relativos a Croacia (población, extensión del país, topónimos en distintos idiomas, etc.). Incluir enlaces a otros URIs La cuarta regla, enlazar datos en cualquier lugar, es necesaria para conectar los datos que tenemos en sitios web de forma que no se queden aislados y así se pueda compartir información con otras fuentes externas y que otros sitios puedan enlazar los datos propios de la misma forma que se hace con los enlaces en HTML. A través de la utilización de enlaces a recursos provenientes de sitios más especializados en determinados dominios, se ofrece un valor añadido a la información que se provee. Algo a tener en cuenta es que los enlaces de los recursos mediante URIs, pueden hacerse localmente y a través de toda la red. Por ejemplo, el recurso de la DBpedia que representa a Croacia, puede tener una propiedad que representa la capital del país, Zagreb, que también está representada mediante RDF e identificada por un URI unívoco similar al de Croacia. En este caso, Zagreb se representa como http://dbpedia.org/resource/Zagreb. De esta forma, ya aparecen dos recursos enlazados, aunque se encuentran en el mismo servidor.

TEMA 6 – Ideas clave


Web semántica y tecnologías 2.0

Algunos de los recursos relacionados con los lugares son las fotografías, por lo que el recurso “Croacia” y “Zagreb” incluyen una propiedad que enlaza el lugar con las fotografías relacionadas, que se encuentran almacenadas en un almacén como Flickr, que a su vez ofrece su información en RDF. De esta forma, se enlazan los datos de lugares con las fotografías. Gracias a estos mecanismos, cualquier recurso es susceptible de ser enriquecido con cualquier tipo de información especializada, incluso la que no se espera que sea combinable. De forma inversa, al publicar información en RDF y utilizando URIs, cualquiera podría hacer referencia a esos datos. Clasificación de datos en la web En el año 2010, Tim Berners-Lee incluyó una clasificación basada en estrellas, de una a cinco, al igual que en los hoteles, que permite catalogar los datos publicados en la web.

La clasificación es estrella es la siguiente:  1. Los datos están disponibles en la web bajo licencia abierta  2. Disponibles de forma estructurada para que puedan ser interpretados por una máquina (e.g. Excel en lugar de una tabla escaneada)  3. Igual que (2) pero usando formatos no propietarios (e.g. CSV en lugar de Excel)  4. Todo lo anterior más: usando estándares del W3C (RDF y SPARQL) para identificar las cosas, de forma que otros puedan referenciarlas de forma sencilla.  5. Todo lo anterior más: los datos están enlazados a otros datos externos para ofrecer contexto.

El anterior sistema de cinco estrellas permite clasificar los datos existentes en la web. Obviamente el objetivo es que todos los datos tengan la máxima clasificación de 5 estrellas.

TEMA 6 – Ideas clave


Web semántica y tecnologías 2.0

6.3. Ejemplos de datasets en Linked Data Los principios básicos de la Web de Datos, aunque válidos en cualquier escenario, están siendo aplicados con éxito sobre todo en el ámbito de las administraciones públicas. Existen por ejemplo Open Government Data Initiatives, el ePSI , el Etalab, y además gobiernos como los de Reino Unido , Estados Unidos y Francia han decidido exponer sus datos públicamente siguiendo los principios de la Web de Datos. En España, gobiernos autonómicos como los de Euskadi, Cataluña o Asturias, corporaciones locales como los Ayuntamientos de Zaragoza o Gijón, y agencias estatales como el Instituto Geográfico Nacional, están comenzando a publicar sus datos de forma libre y gratuita. Al mismo tiempo, se está creando en nuestro país la legislación correspondiente para asegurar que estas iniciativas no sean las únicas en los próximos años. Asimismo, proveedores de contenidos como la BBC están siguiendo estas recomendaciones. Como resultado de todos estos esfuerzos, se está exponiendo y conectando entre sí de manera abierta una gran cantidad de datos, como refleja la iniciativa Linked Open Data. Con el auge de la Web de Datos surgen nuevos retos, como la definición de procedimientos de publicación y explotación de datos, la creación de vocabularios para la descripción de los conjuntos de datos y sus interrelaciones, y el desarrollo de técnicas para gestionar y mantener su ciclo de vida, evolución y multilingüismo, entre otros. Actualmente la Comunidad Europea, a través de la última call del FP7, está financiando

proyectos

de

investigación

relacionados

con

Linked

Data.

Concretamente proyectos como: LATC, LOD2, y PlanetData para trabajar en temas de: Creación de métodos y herramientas para exponer y gestionar un gran número de información estructurada en la Web de Datos Diseño de algoritmos de aprendizaje automático para enriquecer, reparar y enlazar datos en la Web Creación métodos y estándares para mantener una traza de la procedencia de los datos Desarrollo de herramientas para la búsqueda y browsing de Linked Data Desarrollo de una infraestructura abierta para la creación de millones de enlaces de datos de alta calidad ampliamente usados en fuentes de datos de la Web

TEMA 6 – Ideas clave


Web semántica y tecnologías 2.0

Además, existen grupos de investigación que trabajan de forma muy activa en temas de Linked Data como por ejemplo DERI en Irlanda, Talis en Reino Unido, Freie Universität Berlin en Alemania, etc. Por otro lado en las conferencias más importantes del área, como son: el International Semantic Web Conference, ISWC y el Extended Semantic Web Conference, ESWC, se están publicando numerosos artículos sobre Linked Data, donde se llevan a cabo workshops especializados en: consumo de datos en Linked Data búsqueda de respuestas sobre Linked Data multilingüismo en Linked Data, etc. Las actividades anteriores no son más que un reflejo de la situación actual de crecimiento de Linked Data. En la figura siguiente mostramos la “nube” de Linked Data en septiembre de 2010 (la última versión disponible y que seguro se queda pequeña en la actualidad):

Figura :Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/

TEMA 6 – Ideas clave


Web semántica y tecnologías 2.0

La nube de Linked Data, es mantenida por la comunidad Linked Open Data (LOD) dentro de la Comprehensive Knowledge Archive Network (CKAN), un catálogo genérico que permite acceder a conjuntos de datos (data sets) que siguen los principios de Linked Data. En el catálogo del CKAN los data sets están clasificados en las siguientes categorías:

Cross-domain:  Se trata de data sets que se refieren a diferentes dominios. No son específicos de ningún dominio en particular. El data set más conocido pertenece a esta categoría: la DBPedia

Geographic data:  Ofreciendo información geográfica de todo tipo, desde localizaciones hasta información de censo

Government:

.  Como ya se ha comentado anteriormente, la administración pública se ha beneficiado especialmente de Linked Data para la publicación de información accesible de forma abierta.

Media:

.  Una de las primeras instituciones que ha publicado sus contenidos en Linked Data ha sido la BBC que ya en el año 2008 publicaba información sobre su programación en RDF con múltiples enlaces a otras fuentes de datos en las que obtener información adicional.

Libraries and Education:

.  Las bibliotecas también han encontrado en Linked Data un formato potente para la publicación de sus catálogos e información en general. También el ámbito educativo se ha beneficiado de la posibilidad de compartir información en Linked Data.

Life Sciences Data:

.  El ámbito de las ciencias de la vida también ha sido uno de los más activos con múltiples data sets publicados hasta la fecha.

TEMA 6 – Ideas clave


Web semántica y tecnologías 2.0

Retail and Commerce:

.  El ámbito del comercio en general y el e-commerce en particular se ha beneficiado de Linked Data para la publicación de ontologías que incluyan precios, productos, servicios, horas de apertura, etc.

User Generated Content and Social Media:

.  Desde el comienzo de Linked Data, las aplicaciones más populares de la web 2.0 como flickr o Facebook se han beneficiado de una u otra forma de los data sets publicados en Linked Data.

En noviembre de 2010 se disponía de 203 data sets distribuidos en las categorías anteriores que incluían casi 27.000 millones de triplas y casi 400 millones de enlaces RDF a otras fuentes de información externa. A finales de agosto la página principal de CKAN indica que tiene registrados 2121 data sets. El alumno puede extraer sus conclusiones sobre la dimensión que está adquiriendo la Linked Data. A continuación introduciremos algunos data sets presentes en la nube Linked Data. DBpedia Posiblemente el data set más utilizado, de hecho se encuentra en el centro de la nube del Linked Data. La DBpedia es un data set generado automáticamente desde la Wikipedia. Las nuevas entradas de la Wikipedia se incorporan automáticamente en la DBpedia asignándoles una URI. Por ejemplo, una entrada en la Wikipedia como http.//en.wikipedia.org/wiki/Madrid tendría el siguiente URI en la DBpedia http://dbpedia.org/resource/Madrid Esta URI no enlaza a ninguna página web. Es la URI que identifica el recurso Madrid. La correspondiente descripción en RDF se genera mediante la extracción de información de diferentes artículos incluidos en la Wikipedia. La DBpedia incluye información sobre más de 3 millones de cosas, más de la mitad clasificadas a través de una ontología. Se incluyen más de 300.000 personas, 400.000 lugares o 145.000 especies.

TEMA 6 – Ideas clave


Web semántica y tecnologías 2.0

Geonames Se trata de una base de datos con información geográfica disponible para ser descargada de forma gratuita bajo licencia Creative Commons. En la actualidad contiene más de 10 millones de nombres geográficos en diferentes idiomas, con más de 2.8 millones de lugares poblados y 5.5 millones de nombres alternativos. Todos los nombres están organizados en nueve categorías y 645 sub-categorías. Es posible encontrar datos como la longitud, latitud, altitud, población, sub-división administrativa o el código postal, y todo ello disponible en varios idiomas. Los datos son accesibles a través de un conjunto de servicios web a través de los cuales se reciben más de 20 millones de solicitudes diarias. Se dispone también de una interfaz para ser usada directamente por los usuarios a través de Internet. Es posible encontrar lugares sobre la base de un código postal o cerca de un lugar determinado y encontrar los correspondientes enlaces a las entradas de la Wikipedia. Los recursos Geonames están identificados por sus correspondientes URIs, los cuales permiten acceder a información disponible en una Wiki o bien a su descripción en RDF siguiendo la ontología de Geonames, expresada en OWL. A través de la URL de los artículos Wikipedia enlazados a la descripción RDF, los datos Geonames se reenlazan a los datos DBpedia y a otras fuentes RDF. BBC Una de las principales organizaciones que reconocieron el potencial de Linked Data y que adoptó las tecnologías asociadas fue la cadena de emisoras británica BBC. Después de sus experiencias en la publicación de datos en RDF, en el año 2008 publicaron dos sitios en los que combinaban la publicación de Linked Data con la publicación a través de páginas web. BBC programmes. Con más de 60 millones de triplas este data set ofrece información completa sobre la programación de las cadenas de la BBC. Cada episodio, programa, etc. es identificado por su propia URI y su descripción RDF.

TEMA 6 – Ideas clave


Web semántica y tecnologías 2.0

BBC music. Este sitio publica Linked Data sobre cada artista cuya música ha sido programada en las estaciones de la BBC, incluyendo enlaces de los episodios o programas en los que fue tocada. Se enlaza también con DBpedia y recibe enlaces de múltiples fuentes de datos musicales Linked Data. Todas estas fuentes pueden ser combinadas para crear perfiles de artistas muy completos e incluso para inferir grados de similitud entre artistas y estilos musicales con el objetivo de realizar recomendaciones. Data.gov La administración Obama lanzó en el año 2009 la iniciativa data.gov cuyo objetivo es incrementar el acceso público a data sets generados por el gobierno federal en formato que pueda ser fácilmente interpretado de forma automática. Para facilitar su gestión se proporciona también todos los metadatos necesarios para poder acceder a los data sets y herramientas para poder utilizarlos. Esta iniciativa del gobierno de EE.UU., también presente en otros muchos gobiernos occidentales, forma parte de las estrategias de gobierno abierto impulsadas por muchas democracias. Mediante la puesta a disposición del público de datos generados por la administración pública es posible conseguir aplicaciones que muestren en el mapa de un país la distribución geográfica de la inversión pública, la recaudación de impuestos, información de tráfico, metereológica, etc. La propia data.gov permite que los ciudadanos realicen peticiones sobre aquellos datos a los cuales les gustaría tener acceso y anima todo tipo de instituciones a crear aplicaciones que hagan uso y combinen estos datos para generar aplicaciones enriquecidas.

6.4. Guías para la creación de un dataset en Linked Data En esta sección elaboraremos algunos de los principios que se han presentado anteriormente y que han permitido la creación de numerosos data sets, algunos de los cuales se han introducido en la sección anterior. En particular elaboraremos el principio de uso de URIs para nombrar las cosas, la utilización de RDF para su descripción y el establecimiento de enlaces entre ellas.

TEMA 6 – Ideas clave


Web semántica y tecnologías 2.0

Usar URIs para nombrar las cosas Uno de los principios básicos establecidos por Tim Berners-Lee es que se deben utilizar URIs como mecanismo para la identificación de los recursos existentes en Linked Data. Estos recursos pueden pertenecer tanto al mundo real (una persona, un edificio, etc.) o conceptual (un algoritmo, un teorema, una propiedad, etc.). En primer lugar, es necesario que estos URIs estén basados, tal y como establece el segundo principio básico en HTTP. Adicionalmente podemos realizar algunas otras recomendaciones: Utilizar únicamente namespaces bajo nuestro control. Cuando queramos identificar un objeto debemos evitar utilizar dominios sobre los cuales no tengamos control. Cualquier cambio en la política de ese dominio puede suponer que nuestro URI deje de ser válido. No incluir detalles relacionados con la implementación. Todos hemos visto direcciones web en las que podemos identificar los nombres de los servidores o tecnologías de las bases de datos o lenguajes de implementación. Debemos evitar incluir estos detalles para evitar que un cambio en la ubicación física o un proceso de reingeniería en su programación, suponga que la URI deje de ser válida. Utilizar identificadores naturales. Debemos utilizar referencias que sean comunes y familiares dentro del dominio de actuación del data set. Por ejemplo, si disponemos de un catálogo de libros es preferible que la URI de cada uno de ellos esté basada en su ISBN, por ejemplo, frente a otras posibles opciones (e.g. el identificador interno usado por la base de datos de nuestro catálogo). Utilización de RDF para describir cosas Otro principio afirma que se debe proporcionar información de utilidad cuando se acceda a una URI. Esta información se ofrece mediante RDF. La pregunta que puede surgir es: ¿qué información debemos proporcionar cuando se busca por una URI? En otras palabras qué triplas se deben devolver. Las buenas prácticas que se recomiendan en este caso son:

TEMA 6 – Ideas clave


Web semántica y tecnologías 2.0

Las buenas prácticas que se recomiendan en este caso son: Las triplas que describan el recurso con literales Las triplas que describen el recurso enlazándolo con otros recursos (e.g. triplas que indiquen el creador del recurso o su tipo) Las triplas que describan el recurso por estar enlazado desde otros recursos (i.e. enlaces de entrada) Las triplas que describan los recursos relacionados (e.g. el nombre y la afiliación del creador del recurso) Las triplas que describan la descripción propiamente dicha (i.e. metadatos como la procedencia de la información, la fecha de creación o los términos de licencia) Las triplas sobre el data set del cual esta descripción forma parte

Establecimiento de enlaces El principio que permite poder navegar a través de recursos de Linked Data consiste en el establecimiento de enlaces entre recursos identificados por sus URIs. Estos enlaces se consiguen mediante el predicado de las triplas que escribamos. Los enlaces pueden ser internos, establecidos entre URIs pertenecientes al mismo data set, o externos, entre URIs pertenecientes a diferentes data sets. Salvo en casos particulares de dominios muy concretos y reducidos, un data set suele estar descrito en más de un documento RDF y, por lo tanto, es esencial establecer los enlaces apropiados entre los documentos para garantizar que todos ellos puedan ser recuperados y se pueda navegar por todo el data set. En primer lugar debemos asegurar que data sets externos al nuestro nos “enlacen” es decir que contengan triplas cuyo objeto (su URI) se encuentre en nuestro data set. Esto es lo que se denomina enlaces entrantes: desde otros data sets al nuestro. Este mecanismo asegura que robots de buscadores o navegadores Linked Data puedan “alcanzar” nuestro data set. Necesitamos “convencer” a los responsables de otros data sets que incluyan triplas apuntando a nuestros datos. Para ello debemos ofrecer argumentos sobre la inexistencia previa de los datos que estamos publicando, su valor añadido y la simplicidad del mantenimiento de los enlaces creados.

TEMA 6 – Ideas clave


Web semántica y tecnologías 2.0

Una buena estrategia, que se suele recibir con buen agrado, entre otros las DBpedia, es proporcionar directamente las triplas que deberían incluir. En estas triplas estaríamos relacionando los recursos del data set externo con recursos en nuestro data set. En segundo lugar debemos incluir enlaces salientes, es decir desde recursos en nuestro data set hacia data sets externos. Esto ofrece múltiples ventajas, por ejemplo, poder acceder a las descripciones existentes en el data set externo o poder navegar desde ese data set a terceros en los cuales se incluya información adicional relevante para el recurso incluido en nuestro data set original. La selección de qué data sets debemos enlazar debe estar basada en criterios de calidad y mejora de las descripciones que disponemos actualmente. Una buena fuente de potenciales data sets se encuentra en el repositorio de CKAN. Un aspecto fundamental a la hora de establecer enlaces es la selección del predicado más apropiado. Los enlaces en RDF se realizan a través de triplas. Una tripla enlaza el sujeto (URI de la que “sale” el enlace), con el objeto (URI a la que “llega” el enlace) a través del predicado. Los predicados establecen la semántica de las propiedades que estamos identificando. Algunos ejemplos son rdfs:subClassOf, foaf:knows, foaf:based_near. Para la selección del predicado apropiado deberemos utilizar fundamentalmente dos criterios: que el predicado sea ampliamente utilizado en otras fuentes de datos que el correspondiente vocabulario esté adecuadamente publicado, gestionado y mantenido. Habitualmente, resulta una buena elección utilizar los vocabularios establecidos en las principales ontologías como Dublin Core, FOAF, SIOC, Good Relations ontology, etc. Por último, deberemos establecer los enlaces propiamente dichos, mediante las triplas correspondientes. Aquí tenemos dos opciones, o bien se escriben las triplas manualmente o bien se usan mecanismos de autogeneración automática o semi-automática.

La

utilización

de

un

mecanismo

u

otro

dependerá

fundamentalmente de la envergadura de los data sets que estemos enlazando. Para la realización de enlaces de forma manual podemos utilizar herramientas que permiten navegar y buscar URIs de diferentes data sets. En este caso debemos evitar enlazar un objeto con la descripción de otro objeto. Las relaciones se realizan entre objetos en sí. Es decir, debemos establecer que una persona vive en una ciudad, no que una persona vive en el documento RDF que contiene la descripción de esa ciudad.

TEMA 6 – Ideas clave


Web semántica y tecnologías 2.0

En el caso de la generación automática de enlaces, disponemos de dos mecanismos que permiten la identificación de los objetos que queremos enlazar: Basada en claves. Existen dominios en los que resulta relativamente sencillo identificar un objeto de forma única a través de alguna de sus propiedades, por ejemplo el ISBN de un libro. De esta forma resulta, relativamente sencillo poder identificar de forma unívoca los objetos, aunque estos dispongan de varias URIs. Basada en medida de similitud. En aquellos casos en los que no existan identificadores comunes entre diferentes data sets, pueden utilizarse heurísticos que trabajen sobre las propiedades de las entidades o propiedades de las entidades relacionadas. Por ejemplo, tanto Geonames como DBpedia ofrecen información sobre lugares. Para poder identificar si una entidad en ambos sistemas se refiere al mismo lugar se puede considerar comparar su nombre, su localización geográfica (latititud y longitud), el país en el que están situadas o su población. Si todos o casi todos los parámetros anteriores son similares podría concluirse que ambas entidades se refieren realmente al mismo lugar.

TEMA 6 – Ideas clave


Web semántica y tecnologías 2.0

Lo + recomendado No dejes de leer… Linked Data – Design issues En este breve documento el inventor de la web, Tim Berners-Lee, presenta las cuatro reglas básicas que deben cumplir los contenidos incluidos dentro de la Linked Data. El documento está disponible en el aula virtual y en la siguiente dirección web: http://www.w3.org/DesignIssues/LinkedData.html

Linked Data: Evolving the Web into a Global Data Space En este libro de Tom Health y Christian Bizer, disponible online, se puede encontrar información suficiente sobre los contenidos cubiertos por este tema. El artículo está disponible en el aula virtual y en la siguiente dirección web: http://linkeddatabook.com/editions/1.0/#linkedData

How to Publish Linked Data on the Web Este libro, complementa al anterior, especialmente gracias a su capítulo 7 en el que se explican los principios básicos para que los datos publicados en la web en diferentes formatos puedan ser “incluidos” dentro de Linked Data. El artículo está disponible en el aula virtual y en la siguiente dirección web: http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/

TEMA 6 – Lo + recomendado


Web semántica y tecnologías 2.0

Linked Data – The Story so far BIZER, C.; HEALTH, T.; BERNERS-LEE, T. International Journal on Semantic Web and Information Systems. Special Issue on Linked Data. En este artículo escrito por los principales expertos internacionales en el tema, se describen los principios básicos de Linked Data y se introducen algunas de las aplicaciones conseguidas hasta la fecha. El artículo está disponible en el aula virtual y en la siguiente dirección web: http://tomheath.com/papers/bizer-heath-berners-lee-ijswis-linked-data.pdf

No dejes de ver… Linked Data (and the Web of Data) por DERI (Irlanda) En

este

video-tutorial

se

presenta

una

introducción a Linked Data y los instrumentos utilizados

como

URIs,

fuentes

de

datos

distribuidas.

El video está disponible en el aula virtual y en la siguiente dirección web: http://www.youtube.com/watch?v=GKfJ5onP5SQ

A quick introduction to Linked Data En este breve video se motiva la aparición de Linked Data.

El video está disponible en el aula virtual y en la siguiente dirección web: http://www.youtube.com/watch?v=qMjkI4hJej0

TEMA 6 – Lo + recomendado


Web semántica y tecnologías 2.0

Tim Berners-Lee, presentaciones sobre Linked Data Estas son algunas de las presentaciones realizadas por Tim Berners-Lee sobre Linked Data. Tim Berners-Lee, inventor de la WWW, es ahora uno de los mayores impulsores de las web de los datos.

Los videos están disponibles en el aula virtual y en las siguientes direcciones web: http://www.linkeddatatools.com/semantic-web-basics http://www.youtube.com/watch?v=OM6XIICm_qo http://www.youtube.com/watch?v=ga1aSJXCFe0 http://www.youtube.com/watch?v=6YKPqx3FXE4

Tom Health. “How to Publish Linked Data on the Web” Se trata de un video-tutorial sobre la publicación de información en Linked Data impartido por uno de los principales expertos a nivel internacional en el tema.

El video está disponible en el aula virtual y en la siguiente dirección web: http://videolectures.net/iswc08_heath_hpldw/

The Web, one huge database Se trata de otro video tutorial en el que se pretende motivar la necesidad de promover la “web de los datos” frente al tradicional paradigm

de

múltiples

bases

de

datos

distribuidas en diferentes partes de la web. La presentación está disponible en el aula virtual y en la siguiente dirección web: http://www.youtube.com/watch?v=zwbs4ej0gpc

TEMA 6 – Lo + recomendado


Web semántica y tecnologías 2.0

+ Información Webgrafía Linked Data Página principal de la iniciativa Linked Data. http://linkeddata.org

Linked Data Data Sets Información sobre los data sets mantenidos por la iniciativa CKAN.

http://www.w3.org/wiki/TaskForces/CommunityProjects/LinkingOpenData/DataSets

Michael Hausenblas, “Linked Data Applications” Información sobre aplicaciones construidas sobre la base de Linked Data

http://linkeddata.deri.ie/sites/linkeddata.deri.ie/files/lod-app-tr-2009-07-26_0.pdf

European Public Sector Information (PSI) Platform Iniciativa para la integración de información del sector público europeo en Linked Data.

http://www.epsiplus.net/

TEMA 6 – + Información


Web semántica y tecnologías 2.0

Iniciativa Linked Data gobierno Reino Unido Iniciativa Linked Data del gobierno británico.

http://data.gov.uk/

Iniciativa Linked Data gobierno Estados Unidos Iniciativa Linked Data del gobierno norteamericano. http://www.data.gov/

Iniciativa Linked Data gobierno de Francia Iniciativa Linked Data del gobierno francés.

http://data.gouv.fr/

Proyecto LATC Página del proyecto LTAC.

http://latc-project.eu/

TEMA 6 – + Información


Web semántica y tecnologías 2.0

Proyecto LOD2 Página del proyecto LOD2.

http://lod2.eu/

Proyecto Planet Data Página del proyecto Planet Data.

http://www.planet-data.eu/

DERI’s Linked Data Research Centre Centro de investigación en Linked Data de DERI en Irlanda.

http://linkeddata.deri.ie/

TEMA 6 – + Información


Web semántica y tecnologías 2.0

Oficina W3C en España. Guía breve de Linked Data Guía sobre Linked Data creada por la oficina W3C española.

http://www.w3c.es/divulgacion/guiasbreves/LinkedData

CKAN, The Data Hub Página principal del CKAN.

http://ckan.net

Linked Data Cloud Nube de nodos de Linked Data.

http://lod-cloud.net

SPARQL Lenguaje de consultas sobre Fuentes de información semántica SPARQL.

http://www.w3.org/TR/rdf-sparql-query/

TEMA 6 – + Información


Web semántica y tecnologías 2.0

DBPedia Página de la DBPedia.

http://www.dbpedia.org

Geonames Página de Geonames.

http://www.geonames.org

BBC Páginas de programas y de música de la BBC. http://www.bbc.co.uk/programmes http://www.bbc.co.uk/music

Bibliografía Vladan Devedzic. Semantic Web and Education. Springer’s Integrated Series in Information Systems. ISBN: 0-387-35416-6 Brusilovsky, P. (1999). Adaptive and Intelligent Technologies for Web-based Education. In C. Rollinger & C. Peylo (Eds.) Künstliche Intelligenz 4, Special Issue on Intelligent Systems and Teleteaching, 19-25.

TEMA 6 – + Información


Web semántica y tecnologías 2.0

de Bruijn, J., Bussler, C., Domingue, J., Fensel, D., Hepp, M., Keller, U., et al. (2005). Web Service Modeling Ontology (WSMO). W3C Member Submission. World Wide Web Consortium. Sicilia, M., & Garcia, E. (2005). On the convergence of formal ontologies and standardized elearning. Journal of Distance Education Technologies, 3 (12), pp. 12-28. Sicilia, M., Sanchez, S., Arroyo, S., & Martín, S. (2006). LOMR overal architecture. LUISA Project Deliverable D4.1. García, J., & Pariente, T. (2007). Digital Rights Management requirements. LUISA Project Deliverable D5.1.

TEMA 6 – + Información


Web semántica y tecnologías 2.0

Actividades Práctica: Data sets para Educación Se propone realizar una búsqueda de data sets en Linked Data que tengan aplicación en el ámbito educativo. El alumno deberá presentar un breve informe (no más de cuatro páginas) en el que establezca sus principales conclusiones. La información mínima que debe contener el informe es: Descripción del data set Objetivos perseguidos Tecnologías utilizadas Otras fuentes de Linked Data enlazas desde el data set

TEMA 6 – Actividades


Web semántica y tecnologías 2.0

Test 1. ¿Cuál de los siguientes no forma parte de los principios básicos establecidos por Tim Berners-Lee para Linked Data? A. Usar RDF. B. Usar URIs para identificar las cosas. C. Incluir referencias a otras URIs. D. Ninguna de las anteriores. 2. El protocolo recomendado para la resolución de una URI en Linked Data es HTTP. A. Verdadero. F. Falso. 3. Indique cuáles de las siguientes afirmaciones son correctas: A. Una URL es una URI. B. Una URI pueden utilizarse para identificar un objeto del mundo real. C. Pueden existir URIs diferentes para identificar la misma entidad. D. Todas las anteriores. 4. Si dentro de nuestro data set tenemos una URI a y dentro de la DBpedia tenemos una URI b, la tripla “a owl:sameAs b” sería para nosotros: A. Un enlace entrante. B. Un enlace saliente. C. Un enlace interno. D. Ninguna de las anteriores. 5. Según la clasificación de datos de Tim Berners-Lee un fichero Excel con las coordenadas geográficas de las capitales de provincia disponible en la web bajo licencia abierta tendría una clasificación de: A. Una estrella. B. Dos estrellas. C. Tres estrellas. D. Cuatro estrellas.

TEMA 6 – Test


Web semántica y tecnologías 2.0

6. El catálogo genérico de data sets de Linked Data es accesible a través de: A. DBpedia B. Geonames C. CKAN D. W3C 7. ¿Cuántas triplas RDF hay en Linked Data? A. Entre 10 y 100 millones. B. Entre 101 y 1000 millones. C. Entre 1001 y 10.000 millones. D. Más de 10.000 millones. 8. Geonames es una base de datos con información sobre: A. geología. B. genética. C. gerontología. D. Ninguna de las anteriores. 9. ¿Cuál de las siguientes URIs sería la más adecuada para identificar a un profesor por parte el equipo de publicación de la UNIR? A. http://data.unir.net/people/LuisAnido B. http://dbpedia.org/resource/LuisAnido C. http://dbpedia.org/data/LuisAnido D. http://data.unir.net:8080/resource/LuisAnido 10. ¿Cuál de las siguientes serían fuentes apropiadas para los vocabularios usados en los predicados de un enlace Linked Data? A. Dublin Core. B. FOAF. C. Good Relations Ontology. D. Todas las anteriores.

TEMA 6 – Test


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.