Introducción

El catálogo de la Biblioteca Virtual Miguel de Cervantes contiene alrededor de 200,000 registros que fueron creados en un primer momento con el estándar MARC21. El catálogo ha sido recientemente migrado a nueva base de datos basada en el modelo conceptual FRBR promovido por el IFLA (International Federation of Library Associations and Institutions).

El contenido de la base de datos ha sido migrado automáticamente a tripletas RDF utilizando el vocabulario RDA (Resource Description and Access) para describir las entidades, así como sus propiedades y relaciones. La nueva versión del catálogo de datos abiertos se encuentra accesible online.

Páginas HTML

Data.cervantesvirtual.com muestra información estructurada en diferentes páginas:

  • Páginas de autor: todas las obras de un autor, así como el rol (impresor, creador, ilustrador,...) en cada una de ellas. Ejemplo: Lope de Vega
  • Páginas de obras: toda la información de las obras. Ejemplo: Cervantes o la casa encantada
  • Páginas de idiomas: todas las obras publicadas en un idioma en concreto. Ejemplo: Español
  • Páginas de fechas: todas las obras publicadas en una fecha, así como las autores nacidos y fallecidos en dicha fecha. Ejemplo: 1562

Se han utilizado enlaces permanentes para cada uno de los registros del catálogo. Por ejemplo: http://data.cervantesvirtual.com/manifestation/224029.

Nuestro catálogo en RDF

Los datos corresponden al catálogo principal y se han transformado a tripletas RDF para mejorar la interoperabilidad en el nuevo contexto de datos abiertos.

El modelo de datos utilizado permite la inclusión de enlaces a otros repositorios como por ejemplo VIAF o DBpedia para favorecer el enriquecimiento semántico.

Enlaces externos

Data.cervantesvirtual.com propociona enlaces al catálogo tradicional, como por ejemplo búsqueda de contenido o portales temáticos. Además incluye enlaces a repositorios externos como por ejemplo VIAF o DBpedia.

Existen diferentes tipos de enlaces:

  • Enlaces a repositorios externos como VIAF (Virtual International Authority File) o ISNI (International Standard Name Identifier).
  • Enlaces a formularios de búsqueda con los campos prefijados como por ejemplo Europeana o Wikipedia.
  • Enlaces a la Wikipedia para autores, idiomas y fechas.
  • Enlaces a la Biblioteca del Congreso para la codificación de los idiomas.

Ontologías y vocabularios

Para mejorar la interoperabilidad, se han utilizado vocabularios existentes en la medida de lo posible como RDA o Dublin Core.

  • dc http://purl.org/dc/elements/1.1/
  • skos http://www.w3.org/2004/02/skos/core#
  • rdfs http://www.w3.org/2000/01/rdf-schema#
  • rdac http://rdaregistry.info/Elements/c/
  • rdaw http://rdaregistry.info/Elements/w/
  • rdae http://rdaregistry.info/Elements/e/
  • rdamt http://rdaregistry.info/termList/RDAMediaType/
  • rdact http://rdaregistry.info/termList/RDACarrierType/
  • rdau http://rdaregistry.info/Elements/u/
  • rdau http://rdaregistry.info/Elements/u/
  • rdam http://rdaregistry.info/Elements/m/
  • rdai http://rdaregistry.info/Elements/i/
  • rdai http://rdaregistry.info/Elements/i/
  • rdaa http://rdaregistry.info/Elements/a/
  • time http://www.w3.org/2006/time#
  • madsrdf http://www.loc.gov/mads/rdf/v1#

Datos embebidos: Schema.org

Todas la páginas pueden ser indexadas por los principales buscadores gracias a la inclusión de información estructurada:

Schema.org, proporciona un vocabulario para añadir información en HTML para facilitar la indexación y búsqueda.

Opengraph Protocol (OG), ha sido utilizado para que las páginas puedan ser enlazadas en las principales redes sociales.

Glyphicon Halflings ha sido utilizado para mostrar iconos.

Software

La librería Apache Jena ha sido utilazada para transformar los registros del catálogo a RDF. Jena es librería de código abierto para desarrollar aplicaciones de Web Semántica. Apache License, Version 2.0.

Sesame ha sido utilizado como repositorio RDF para almacenar las tripletas resultado de la transformación.

Condiciones de uso

Para facilitar la reutilización y uso del repositorio, la información ha sido publicada en datahub.io.

Publicaciones

  • Gustavo Candela Romero, Maria Pilar Escobar Esteban, Manuel Marco Such, Rafael C. Carrasco

    Transformation of a Library Catalogue into RDA Linked Open Data.

    TPDL 2015: 321-325

  • Gustavo Candela Romero, Maria Pilar Escobar Esteban, Manuel Marco Such, Rafael C. Carrasco

    Migration of a library catalogue into RDA linked open data.

    Semantic Web Journal 2017. Online