A benchmark of Spanish language datasets for computationally driven research

14/12/2021

El uso y publicación de colecciones de datos (en inglés, Collections as Data) que faciliten el acceso computacional en el contexto de las bibliotecas e instituciones de patrimonio cultural ha favorecido un nuevo contexto en el que investigadores de otras instituciones puede reutilizar las colecciones digitales para diferentes fines. La mayoría de las colecciones publicadas como datos contienen textos en el idioma inglés.

Este artículo, publicado en la revista Journal of Information Science,  propone una metodología para seleccionar colecciones de datos para su reutilización y se ha aplicado a una selección de colecciones que incluyen textos en castellano. La metodología proporciona un método para evaluar la calidad de varios criterios como por ejemplo el uso de licencias, la calidad del OCR (del inglés Optical Character Recognition) como resultado del proceso de digitalización, procedencia, idioma de los textos proporcionados, publicación de prototipos y ejemplos de uso, uso de diferentes formatos y términos de uso.

La metodología se ha aplicado a un conjunto de colecciones que incluye  a la Biblioteca Digital del Patrimonio Iberoamericano, Chronicling America de la Biblioteca del Congreso de los Estados Unidos, y la Biblioteca Digital Hispánica. Además, se incluye una colección de Jupyter notebooks disponbile en Zenodo que muestra cómo reutilizas las colecciones digitales de forma innovadora y creativa.

Referencias