Corpus (corpora): definición, origen y usos del término latino 'cuerpo'
Corpus (corpora): definición, origen y usos del término latino "cuerpo". Descubre su evolución, acepciones y ejemplos en lingüística, derecho y ciencia.
Corpus (plural corpora) significa cuerpo en latín. Puede significar:
- Cuerpo físico: el organismo o una parte anatómica (por ejemplo, corpus callosum, que es una estructura del cerebro).
- Cuerpo de textos: una colección más o menos grande y sistemática de textos o datos lingüísticos utilizada para el estudio del lenguaje.
- Conjunto jurídico o doctrinal: textos legales o corpus de leyes (por ejemplo, Corpus Iuris), o la idea legal de corpus delicti (el conjunto de hechos que demuestran la existencia de un delito).
- Cuerpo de obra: el conjunto de obras de un autor o de una disciplina (por ejemplo, el corpus de la obra de un poeta).
- Uso religioso o ritual: en expresiones como Corpus Christi, que se refiere al cuerpo de Cristo en la tradición cristiana.
Origen y etimología
La palabra proviene del latín corpus, que significa literalmente "cuerpo". En las lenguas modernas aparece tanto en usos literales como en usos figurados (por ejemplo, para referirse a un conjunto organizado de entidades: textos, leyes, obras, evidencias). Muchos términos derivados en castellano y otras lenguas (como corporal, corporación, corpúsculo) comparten esa raíz.
Corpus en lingüística y ciencias del lenguaje
En lingüística y en procesamiento del lenguaje natural (PLN), un corpus es una colección de textos (o de grabaciones) recopilada con criterios definidos para estudiar el uso real de una lengua. Características y distinciones importantes:
- Tipos: corpus escritos, corpus orales (con transcripciones), corpus multimodales (texto + audio + vídeo).
- Comparables y paralelos: un corpus comparable contiene textos de distintos idiomas o variedades sobre temas similares; un corpus paralelo contiene traducciones alineadas frase a frase.
- Equilibrio y representatividad: un corpus puede ser balanceado (representa distintos géneros y registros) o de dominio (centrado en medicina, derecho, tecnología, etc.).
- Anotación: los corpus suelen enriquecerse con anotaciones morfosintácticas, lematización, etiquetas semánticas, etiquetas de entidades nombradas, etc., para facilitar análisis automáticos o manuales.
- Tamaños y medidas: se habla de tokens (palabras/segmentos), tipos (vocabulario distinto), y frecuencia de ocurrencias.
Construcción y herramientas
La creación de un corpus exige decisiones sobre muestreo, limpieza, formatos y licencias. Entre las herramientas más habituales para trabajar con corpus están los concordancers y analizadores como AntConc, Sketch Engine, bibliotecas de programación (por ejemplo, NLTK, spaCy) y gestores de anotación. También es frecuente convertir datos de fuentes como periódicos, libros, subtítulos o transcripciones a formatos estándar (XML, TEI) para su procesamiento.
Aplicaciones prácticas
- Lexicografía: elaboración y actualización de diccionarios basados en uso real.
- Gramáticas descriptivas: estudio de patrones y variaciones lingüísticas.
- Enseñanza de lenguas: creación de materiales y ejercicios basados en ejemplos auténticos.
- Traducción automática y TA asistida: modelos entrenados con corpus paralelos.
- Minería de texto y PLN: análisis de sentimiento, extracción de información, clasificación y búsqueda semántica.
- Forense y autoría: análisis estilométrico para identificar autoría o fraude.
Expresiones y usos idiomáticos
- Corpus delicti: prueba de que se ha cometido un delito (en sentido jurídico).
- Corpus Iuris o Corpus Juris Civilis: recopilaciones históricas de derecho.
- Corpus Christi: festividad religiosa que celebra la eucaristía.
Plural y uso en español
En español se usan ambas formas para el plural: corpora (latina) y corpus como plural invariable. En contextos técnicos, especialmente en lingüística y PLN, corpora es la forma más habitual.
Ejemplos de corpora conocidos
- British National Corpus (BNC)
- Corpus de Referencia del Español Actual (CREA) y Corpus del Español (Mark Davies)
- Corpus of Contemporary American English (COCA)
- Europarl (corpus paralelo de actas del Parlamento Europeo)
En resumen, corpus es una palabra con un sentido central—“cuerpo”—que se aplica en muchos campos para denotar un conjunto organizado y significativo de elementos: cuerpos físicos, conjuntos de textos, colecciones legales o el cuerpo de la obra de un autor. En lingüística y tecnología del lenguaje, su uso es especialmente relevante por su papel en la investigación, la creación de recursos y el entrenamiento de sistemas automáticos.
Buscar dentro de la enciclopedia