Colección de datos. Canon 60. La colección esencial del TC/12. Teatro clásico español Jupyter Notebooks [BVMC. Labs]
07/10/2022Siguiendo las nuevas tendencias en la publicación de datos abiertos para facilitar el acceso computacional y la reutilización de las colecciones de forma innovadora y creativa, la Biblioteca Virtual Miguel de Cervantes pone a disposición de los usuarios una nueva colección de datos basada en el Teatro clásico español. La colección se encuentra disponible en el siguiente enlace.
El contenido original de los textos forma parte del Canon 60. La colección esencial del TC/12. Teatro clásico español disponible en la Biblioteca Virtual Miguel de Cervantes, en el portal temático Teatro clásico español.
La estructura de la colección se basa en los parlamentos de los personajes de cada obra que se han extraído de los documentos originales en formato TEI (del inglés, Text Encoding Initiative) para generar un fichero CSV (del inglés, Comma-Separated Values). Cada registro de la colección incluye, entre otros campos, el identificador del registro, el identificador del autor en la Biblioteca Virtual Miguel de Cervantes, el personaje, el texto plano y el texto en formato XML.
En la sección de Jupyter Notebooks se encuentra disponible una colección con ejemplos representativos basados en el análisis y visualización del contenido de la colección así como también el reconocimiento de entidades nombradas en el texto.
El proyecto y su código asociado se ha publicado bajo una licencia Creative Commons Attribution 4.0 International License.