Evaluación de la calidad de datos RDF con Shape Expressions

30/08/2021

La validación de repositorios basados en datos abiertos y enlazados, conocidos como Linked Open Data (LOD), ha sido un tema recurrente en investigación. Recientemente, Shape Expressions (ShEx) ha aparecido como un lenguaje para validar y describir conjuntos de datos RDF.

Las expresiones ShEx permiten, con una sintaxis sencilla, la validación de datos y descripción de los vocabularios utilizados para describir las colecciones de datos basadas en LOD. En el libro Validating RDF Data se introduce ShEx con ejemplos descriptivos para comprender el funcionamiento.

Desde la Biblioteca Virtual Miguel de Cervantes y la Universidad de Alicante, hemos publicado un artículo de investigación que pone de manifiesto la utilidad de ShEx para evaluar las colecciones digitales publicadas por bibliotecas. El artículo se ha publicado en la revista Semantic Web Journal en la edición especial de Patrimonio Cultural (Special Issue Cultural Heritage 2021).

Como resultado del artículo, se ha creado una colección de ShEx que utiliza diferentes repositorios para validar RDF, incluyendo la Biblioteca Nacional de Francia, la Biblioteca Británica y la Biblioteca Nacional de Finlandia, entre otras. Además, se incluye un ejemplo adicional basado en Linked Open Vocabularies (LOV) para demostrar que la metodología propuesta se puede adaptar a otros contextos. La colección de ShEx se encuentra disponible en GitHub y Zenodo.

Los ejemplos se pueden ejecutar sin necesidad de instalar ningún software a través del ShEx2 — Simple Online Validator. A modo de tutorial, vamos a ejecutar la colección basada en la Biblioteca Británica. En primer lugar, seleccionamos el tipo de entidad a validar desde el apartado Manifest. Por ejemplo, seleccionamos el tipo de entidad libro representada a través de la clase bibo:Book:

A continuación, seleccionamos en el apartado de la derecha la opción de validar 100 elementos:

Como podemos observar en la imagen anterior, automáticamente se configura el punto de acceso SPARQL y la sentencia a ejecutar. Finalmente, hacemos clic sobre el botón validar y se mostrarán los resultados de la validación:

Referencias