¿Sabes cómo usar la base de datos Wikidata?

26/06/2017

Wikidata, una base de datos libre y colaborativa

Wikidata entró en nuestras vidas recientemente y se le augura un futuro prometedor para el procesamiento automático de información. En este artículo presentamos cómo podemos utilizar Wikidata en nuestra organización para beneficiarnos de su contenido. Según la definición de su web, Wikidata es un proyecto de la Fundación Wikimedia: una base de datos secundaria libre, colaborativa y multilingüe, que recopila datos estructurados para dar soporte a Wikipedia, Wikimedia Commons, a los otros proyectos Wikimedia y mucho más.Wikidata logo

¿Qué quiere decir esta definición? La palabra clave es estructurada, hecho que permite que la información sea reutilizada por terceras partes, ya sea usuarios, instituciones como la Fundación de la Biblioteca Virtual Miguel de Cervantes y, lo más importante, procesadores que pueden entender esa información estructurada. Otro punto muy relevante es el hecho de que sea colaborativa, lo que quiere decir que se enriquece con voluntarios que desean incorporar sus contenidos al repositorio.

Como forma novedosa y diferente a otras aproximaciones, la información se almacena en tripletas RDF (Sujeto- predicado-objeto, por ejemplo «Gustavo conoce a Pilar») y se puede ver directamente desde la vista de cada página. En el siguiente ejemplo podemos observar cómo se estructura la información en una página de Wikidata, concretamente la página de Miguel de Cervantes. En primer lugar podemos ver el título y el identificador. A continuación observamos las tripletas que contienen información estructurada sobre el registro como puede ser la imagen, el género, la fecha de nacimiento y muerte, lugar de nacimiento, influencias, obras, etc. Las tripletas permiten almacenar cualquier tipo de información de forma genérica y el valor de cada una de ellas viene dado por la propiedad que se está editando en ese momento.

Miguel-de-Cervantes-Wikidata-Ejemplo

Finalmente llegamos a un apartado denominado identificadores que permite enlazar el registro con otros repositorios. Este apartado es muy importante para el concepto de Linked Open Data. Si nos fijamos bien, vemos una propiedad que se llama BVMC Person id que almacena identificadores de autores de la Biblioteca Virtual Miguel de Cervantes, en concreto el autor Miguel de Cervantes en nuestro catálogo de Linked Open Data.

Miguel de Cervantes - identificadores- Wikidata

Si nos fijamos en la imagen anterior, se puede observar una propiedad BVMC person id que tiene valor 40. ¿Qué significa esta información? Bien, aquí viene el truco, BVMC person id es una propiedad de Wikidata que identifica autores en la Biblioteca Virtual Miguel de Cervantes y el valor 40 (http://data.cervantesvirtual.com/person/40) corresponde al identificador del autor Miguel de Cervantes. De esta forma, los datos de la BVMC y de Wikidata quedan enlazados para poder reutilizar la información.

Para poder crear una propiedad en Wikidata es necesario solicitar su creación. Para ello existe un protocolo que los usuarios deben seguir. En primer lugar, se debe buscar si existe una propiedad que sea similar para evitar redundancias, os adjunto el enlace. En caso de no existir, entonces debemos proceder con el protocolo establecido. Lo primero es rellenar la ficha de solicitud. Una vez rellenada la solicitud, los administradores de Wikidata se compromenten a en una semana darnos una respuesta. Podréis observar que los administradores introducirán comentarios en la solicitud, a modo de aprobación o negación por diversos motivos. Os dejo una solicitud reciente de la BVMC. Finalmente, si se acepta la propiedad tendrá un aspecto como el ejemplo de identificadores de autores.

Una vez creada la propiedad, cualquier usuario puede proceder a introducir valores. Desde cualquier entidad de Wikidata al pulsar el botón «add» en la zona inferior, nos aparecerá un autocompletado desde el cual podemos añadir la propiedad y el valor. Es importante resaltar que si se introducen valores incorrectos, probablemente serán rechazados ya que los administradores de Wikidata están muy atentos a cualquier uso incorrecto de su plataforma. Además, existen formas para la inserción masiva de datos en Wikidata, pero todavía se encuentran en versiones iniciales y no he podido adentrarme demasiado.

wikidata-anadir-propiedad
wikidata-añadir-propiedad

Una vez hemos realizado todo el proceso, una de las primeras ventajas que podemos observar si accedemos a la entrada de la Wikipedia del autor Miguel de Cervantes, es que en el apartado de Control de autoridades aparecerá un enlace a nuestra web. Como podéis imaginar esto es una fuente muy rica de visitas para nuestra web y para mejorar el posicionamiento. Evidentemente, esta no es la mejor forma de explotar esa información pero al menos es un detalle que nos puede encaminar a introducir nuestros identificadores en Wikidata. No es de extrañar que en breve existan otras formas más interesantes y vistosas para el usuario de explotar esa información.

wikipedia-control-de-autoridades
wikipedia-control-de-autoridades

¿Cómo se accede a los datos en Wikidata?

Wikidata ofrece un interfaz online para realizar consultas en SPARQL. Si deseamos trabajar con nuestra propiedad de identificadores de autor, tendremos que usar el espacio de nombres correcto (wdt) y el identificador de la propiedad que lo podemos obtener de la URL (https://www.wikidata.org/wiki/Property:P2799). Os muestro un ejemplo de sentencia que obtiene los enlaces de Wikidata a nuestro catálogo de datos enlazados.

PREFIX wdt: <http://www.wikidata.org/prop/direct/>
select *
where {?item wdt:P2799 ?BVMCauthor}

wikidata-sparql-ejemplo
wikidata-sparql-ejemplo

 

Espero que os haya gustado esta entrada y os animo a que participéis en Wikidata!