Proyecto Read y Transkribus: Reconocimiento automático de manuscritos

21/09/2017

El pasado mes de abril tuvimos la oportunidad de asistir a un workshop sobre el proyecto READ en Göttingen, al mismo tiempo que presentamos nuestros últimos desarrollos presentados como artículos de investigación en el congreso DATeCH. No habíamos tenido tiempo desde entonces para dedicarle una entrada en nuestro blog a este proyecto que realmente nos sorprendió por lo avances que proponían.

En concreto, Transkribus es una plataforma para el reconocimiento automático, transcripción y búsqueda de documentos manuscritos. El proyecto Transkribus forma parte del proyecto READ, financiado por la Unión Europea por el programa de investigación e innovación Horizon 2020, y tiene como principal objetivo mejorar el acceso a documentos históricos por medio de los últimos avances en tecnología.

 

cantar-mio-cid
Cantar Mio Cid

Desde la web del proyecto podemos descargar el interfaz desde donde es posible incluir las imágenes y obtener la transcripción. Es importante saber que las imágenes no son públicas para el resto de usuarios. Como novedad piensan incluir un interfaz desde el que se pueda fomentar el crowdsourcing para revisar las transcripciones. Numerosas iniciativas de este tipo han aparecido recientemente, como por ejemplo los manuscritos del filósofo inglés Jeremy Bentham, y la BVMC no descarta en un futuro próximo ofrecer servicios similares para fomentar la participación de usuarios externos.La lectura y transcripción de manuscritos puede resultar muy compleja incluso para el ojo humano debido al estilo de escritura, idioma, caracteres utilizados o el uso de palabras antiguas, que ya revisamos en nuestro ejemplo de búsqueda diacrónica diasearch. El objetivo de la tecnología HTR (Handwritten Text Recognition) es reconocer texto en imágenes proporcionadas por formatos JPG o PDF. Realizar la transcripción de una obra como la de Don Juan Tenorio de José Zorrilla o el Cantar de Mio Cid, puede resultar una tarea difícil y larga. Gracias a la plataforma READ podemos realizarlo de forma automática, reduciendo el tiempo y los costes de una labor compleja de ejecutar.

read-plataforma
Plataforma READ

En cuanto a la formación en reconocimiento de texto, también tienen en fase de pruebas una aplicación para poder realizar cuestionarios en los que se da la posibilidad de completar líneas de texto reconocidas automáticamente y donde aparece un hueco en blanco que es necesario completar para avanzar a la siguiente pregunta. Como iniciación para entender el proceso de reconocimiento de texto es crucial este tipo de aplicaciones que favorecen el aprendizaje con pequeños juegos.

Os animo a descargar la aplicación y que realicéis vuestras primeras pruebas con esta herramienta!