Corpus de español: la familia crece

Categoría: Corpus, TICS | Comments Off

Un corpus es una colección de datos, idealmente anotada con información lingüística o de otro tipo. Como profesores de español cada uno de nosotros puede haber recopilado a lo largo de los años un archivo con datos sobre la producción escrita de nuestros alumnos (redacciones, textos corregidos, etc.). Eso sería un corpus escrito de español LE/2.

En otra escala, contamos con varios corpus de español como L1: el CREA (Corpus de referencia del español actual) y el CORDE (Corpus diacrónico del español) de la RAE, así como el Cumbre (Corpus lingüístico del español contemporáneo) y el Lexesp (Léxico informatizado del español). Sobre los dos últimos podéis encontrar información en la magnífica página de Joaquim Llisterri.Todos estos corpus se basan en la lengua escrita. El tema de la lengua oral era más peliagudo hasta hace bien poquito, cuando empezamos a desarrollar todavía más nuestro lado de animales tecnológicos sedientos de información. Pero ya podemos contar con un par de corpus de lo que decimos y no de lo que escribimos: VAL.ES.CO y C-ORAL-ROM.

Por una parte, nuestras intuiciones como hablantes nativos agradecen sin duda el desarrollo de los corpus de EL/1, ya que así les ahorramos algo de trabajo en la clase. Por otra, esa inevitable parte de nuestra personalidad docente que se entretiene (o se desespera) con los procesos de adquisición de nuestros alumnos en el aula se alegrará con el desarrollo de varios corpus de español LE. Muchos habréis oído hablar en algún momento del proyecto que el grupo WOSLAC está desarrollando: CEDEL (Corpus escrito del español LE). No sé si permitirán que usemos los resultados que obtengan. Esperemos que sí. Los que sí los van a poner a nuestra disposición gratuitamente son los de SPLLOC (Spanish Language Learner Corpora), característica que sorprendentemente solo comparten con este corpus los de la RAE.

Este proyecto tan generoso lo he descubierto vía INFOLING.Varias universidades inglesas participan en la creación y el análisis de un corpus de español oral LE. La base de datos que construyan contendrá archivos digitales de la producción oral en español de estudiantes cuya L1 es el inglés, junto con sus transcripciones etiquetadas con el mismo formato que ya se usó en CHILDES.




Tienes queregistrarte para añadir un comentario.

Nombre (obligatorio)

Email (obligatorio)

Página web

XHTML: Puedes utilizar estas etiquetas: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Comparte tu sabiduría