Corpus (corpora): definición, origen y usos del término latino 'cuerpo'

Corpus (corpora): definición, origen y usos del término latino "cuerpo". Descubre su evolución, acepciones y ejemplos en lingüística, derecho y ciencia.

Autor: Leandro Alegsa

Corpus (plural corpora) significa cuerpo en latín. Puede significar:

  • Cuerpo físico: el organismo o una parte anatómica (por ejemplo, corpus callosum, que es una estructura del cerebro).
  • Cuerpo de textos: una colección más o menos grande y sistemática de textos o datos lingüísticos utilizada para el estudio del lenguaje.
  • Conjunto jurídico o doctrinal: textos legales o corpus de leyes (por ejemplo, Corpus Iuris), o la idea legal de corpus delicti (el conjunto de hechos que demuestran la existencia de un delito).
  • Cuerpo de obra: el conjunto de obras de un autor o de una disciplina (por ejemplo, el corpus de la obra de un poeta).
  • Uso religioso o ritual: en expresiones como Corpus Christi, que se refiere al cuerpo de Cristo en la tradición cristiana.

Origen y etimología

La palabra proviene del latín corpus, que significa literalmente "cuerpo". En las lenguas modernas aparece tanto en usos literales como en usos figurados (por ejemplo, para referirse a un conjunto organizado de entidades: textos, leyes, obras, evidencias). Muchos términos derivados en castellano y otras lenguas (como corporal, corporación, corpúsculo) comparten esa raíz.

Corpus en lingüística y ciencias del lenguaje

En lingüística y en procesamiento del lenguaje natural (PLN), un corpus es una colección de textos (o de grabaciones) recopilada con criterios definidos para estudiar el uso real de una lengua. Características y distinciones importantes:

  • Tipos: corpus escritos, corpus orales (con transcripciones), corpus multimodales (texto + audio + vídeo).
  • Comparables y paralelos: un corpus comparable contiene textos de distintos idiomas o variedades sobre temas similares; un corpus paralelo contiene traducciones alineadas frase a frase.
  • Equilibrio y representatividad: un corpus puede ser balanceado (representa distintos géneros y registros) o de dominio (centrado en medicina, derecho, tecnología, etc.).
  • Anotación: los corpus suelen enriquecerse con anotaciones morfosintácticas, lematización, etiquetas semánticas, etiquetas de entidades nombradas, etc., para facilitar análisis automáticos o manuales.
  • Tamaños y medidas: se habla de tokens (palabras/segmentos), tipos (vocabulario distinto), y frecuencia de ocurrencias.

Construcción y herramientas

La creación de un corpus exige decisiones sobre muestreo, limpieza, formatos y licencias. Entre las herramientas más habituales para trabajar con corpus están los concordancers y analizadores como AntConc, Sketch Engine, bibliotecas de programación (por ejemplo, NLTK, spaCy) y gestores de anotación. También es frecuente convertir datos de fuentes como periódicos, libros, subtítulos o transcripciones a formatos estándar (XML, TEI) para su procesamiento.

Aplicaciones prácticas

  • Lexicografía: elaboración y actualización de diccionarios basados en uso real.
  • Gramáticas descriptivas: estudio de patrones y variaciones lingüísticas.
  • Enseñanza de lenguas: creación de materiales y ejercicios basados en ejemplos auténticos.
  • Traducción automática y TA asistida: modelos entrenados con corpus paralelos.
  • Minería de texto y PLN: análisis de sentimiento, extracción de información, clasificación y búsqueda semántica.
  • Forense y autoría: análisis estilométrico para identificar autoría o fraude.

Expresiones y usos idiomáticos

  • Corpus delicti: prueba de que se ha cometido un delito (en sentido jurídico).
  • Corpus Iuris o Corpus Juris Civilis: recopilaciones históricas de derecho.
  • Corpus Christi: festividad religiosa que celebra la eucaristía.

Plural y uso en español

En español se usan ambas formas para el plural: corpora (latina) y corpus como plural invariable. En contextos técnicos, especialmente en lingüística y PLN, corpora es la forma más habitual.

Ejemplos de corpora conocidos

  • British National Corpus (BNC)
  • Corpus de Referencia del Español Actual (CREA) y Corpus del Español (Mark Davies)
  • Corpus of Contemporary American English (COCA)
  • Europarl (corpus paralelo de actas del Parlamento Europeo)

En resumen, corpus es una palabra con un sentido central—“cuerpo”—que se aplica en muchos campos para denotar un conjunto organizado y significativo de elementos: cuerpos físicos, conjuntos de textos, colecciones legales o el cuerpo de la obra de un autor. En lingüística y tecnología del lenguaje, su uso es especialmente relevante por su papel en la investigación, la creación de recursos y el entrenamiento de sistemas automáticos.



Buscar dentro de la enciclopedia
AlegsaOnline.com - 2020 / 2025 - License CC3