Evaluación de la calidad de datos RDF con Shape Expressions

La validación de repositorios basados en datos abiertos y enlazados, conocidos como Linked Open Data (LOD), ha sido un tema recurrente en investigación. Recientemente, Shape Expressions (ShEx) ha aparecido como un lenguaje para validar y describir conjuntos de datos RDF.

Las expresiones ShEx permiten, con una sintaxis sencilla, la validación de datos y descripción de los vocabularios utilizados para describir las colecciones de datos basadas en LOD. En el libro Validating RDF Data se introduce ShEx con ejemplos descriptivos para comprender el funcionamiento.

Desde la Biblioteca Virtual Miguel de Cervantes y la Universidad de Alicante, hemos publicado un artículo de investigación que pone de manifiesto la utilidad de ShEx para evaluar las colecciones digitales publicadas por bibliotecas. El artículo se ha publicado en la revista Semantic Web Journal en la edición especial de Patrimonio Cultural (Special Issue Cultural Heritage 2021).

Como resultado del artículo se ha creado una colección de ShEx que utiliza diferentes repositorios para validar RDF incluyendo la Biblioteca Nacional de Francia, la Biblioteca Británica y la Biblioteca Nacoinal de Finlandia, entre otras. Además, se incluye un ejemplo adicional basado en Linked Open Vocabularies (LOV) para demostrar que la metodología propuesta se puede adaptar a otros contextos. La colección de ShEx se encuentra disponible en Github y Zenodo, DOI.

Los ejemplos se pueden ejecutar sin necesidad de instalar ningún software a través del ShEx2 — Simple Online Validator. A modo de tutorial, vamos a ejecutar la colección basada en la Biblioteca Británica. En primer lugar, seleccionamos el tipo de entidad a validar desde el apartado Manifest. Por ejemplo, seleccionamos el tipo de entidad libro representada a través de la clase bibo:Book:

A continuación, seleccionamos en el apartado de la derecha la opción de validar 100 elementos:

Como podemos observar en la imagen anterior, automáticamente nos configura el punto de acceso SPARQL y la sentencia a ejecutar. Finalmente, hacemos click sobre el botón validar y nos mostrará los resultados de la validación:

Referencias

  • Gustavo Candela, Pilar Escobar, María Dolores Sáez and Manuel Marco-Such. (2021) ‘A Shape Expression approach for assessing the quality of Linked Open Data in Libraries’, Semantic Web Journal. Special Issue Cultural Heritage 2021. Versión preprint.
  • Gustavo Candela, Pilar Escobar, Rafael C. Carrasco and Manuel Marco-Such. (2020) ‘Evaluating the quality of linked open data in digital libraries’, Journal of Information Science. doi: 10.1177/0165551520930951.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

2 + 3 =