Documentación corpus diacrónico

13/03/2018

Introducción

El corpus contiene 86 obras pertenecientes a la Biblioteca Virtual Miguel de Cervantes impresas entre los años 1482 y 1647, y cubre una variedad representativa de autores y géneros como por ejemplo, prosa, teatro o verso. Este corpus es una de las pocas colecciones de español histórico disponible bajo licencia abierta en la web de IMPACT.
El corpus diacrónico del español compila alrededor de 100 obras, con un total de 2 millones de palabras. Aproximadamente el 27 % de las palabras en el corpus han sido anotadas con su lema, categoría gramatical (part of speech) y su forma moderna equivalente.
Las categorías que han sido consideradas son abreviación, adjetivo, adverbio, conjunción, determinante, interjección, nombre, nombre propio, número, preposición, pronombre, pronombre relativo y verbo. La anotación ha sido realizada mediante la herramienta CoBaLT.

La interfaz y lenguaje de consulta

La interfaz con el buscador está accesible en el siguiente enlace. Cada término puede ir precedido de un prefijo:
  • Si no se añade prefijo, el término denota una forma diacrónica.
  • El prefijo modern# denota una forma moderna.
  • El prefijo lemma# denota un lema.
  • El prefijo pos# denota la categoría gramatical (part of speech).
El sistema permite el uso de sentencias con múltiples términos y prefijos. Las palabras y frases son presentadas en un pequeño contexto (snippet).
Por ejemplo, la forma de la palabra celebrada genera 5 entradas:
  • lemma#celebrar
  • pos#verb
  • modern#celebrada
  • lemma#celebrado
  • pos#adj
La forma de la palabra yerro genera 7 entradas:
  • lemma#yerro
  • pos#n
  • modern#yerro
  • lemma#hierro
  • modern#hierro
  • lemma#errar
  • pos#verb

La siguiente imagen muestra los resultados para la búsqueda lemma#haber modern#de pos#verb:

corpus-diacronico-resultados

Referencias al corpus

  • Carrasco, R. C., Martínez-Sempere, I., Mollá-Gandía, E., Sánchez-Martínez, F., Candela, G. y Escobar, P. (2015). Linguistically-Enhanced Search over an Open Diachronic Corpus. En Hanbury, A., Kazai, G., Rauber, A. y Fuhr N. (eds.), Advances in Information Retrieval. ECIR 2015. Lecture Notes in Computer Science (vol. 9022, pp. 801-804). Springer, Cham. https://doi.org/10.1007/978-3-319-16354-3_89
  • Sánchez-Martínez, F., Martínez-Sempere, I., Ivars-Ribes, X. y Carrasco, R. C. (2013). An open diachronic corpus of historical Spanish published in Language Resources and Evaluation. Lang Resources & Evaluation, 47, 1327-1342. https://doi.org/10.1007/s10579-013-9239