Documentación corpus diacrónico

Introducción

El corpus contiene 86 obras pertenecientes a la Biblioteca Virtual Miguel de Cervantes e impresas entre los años 1482 y 1647; cubre una variedad representativa de autores y géneros como por ejemplo prosa, teatro y verso. Este corpus es una de las pocas colecciones de español histórico disponible bajo licencia abierta en la web de IMPACT.
El corpus diacrónico del español compila alrededor de cien obras, con un total de 2 millones de palabras. Aproximadamente el 27% de las palabras en el corpus han sido anotadas con su lema, categoría gramatical (part of speech) y su forma moderna equivalente.
Las categorías que han sido consideradas son abreviación, adjetivo, adverbio, conjunción, determinante, interjección, nombre, nombre propio, número, preposición, pronombre, pronombre relativo y verbo. La anotación ha sido realizada mediante la herramienta CoBaLT.

El interfaz y lenguaje de consulta

El interfaz con el buscador está accesible en el siguiente enlace. Cada término puede ir precedido de un prefijo:
  • Si no se añade prefijo, el término denota una forma diacrónica.
  • El prefijo modern# denota una forma moderna.
  • El prefijo lemma# denota un lema.
  • El prefijo pos# denota la categoría gramatical (part-of-speech).
El sistema permite el uso de sentencias con múltiples términos y prefijos. Las palabras y frases son presentadas en un pequeño contexto (snippet).
Por ejemplo, la forma de la palabra celebrada genera 5 entradas:
  • lemma#celebrar
  • pos#verb
  • modern#celebrada
  • lemma#celebrado
  • pos#adj
La forma de la palabra yerro genera 7 entradas:
  • lemma#yerro
  • pos#n
  • modern#yerro
  • lemma#hierro
  • modern#hierro
  • lemma#errar
  • pos#verb

La siguiente imagen muestra los resultados para la búsqueda lemma#haber modern#de pos#verb

corpus-diacronico-resultados
corpus-diacronico-resultados

Referencias al corpus