Glosario
Corpus
En lingüística, un «corpus» se refiere a un conjunto estructurado y organizado de textos o muestras de habla que se utilizan como base para el estudio y análisis lingüístico. Estos textos o muestras son seleccionados con el propósito de representar un idioma o un dominio específico de uso del lenguaje.
Los corpus lingüísticos pueden incluir textos escritos, transcripciones de conversaciones habladas, registros de mensajes electrónicos, entre otros tipos de datos lingüísticos. La construcción de un corpus implica la recopilación, selección y anotación de estas muestras de lenguaje, con el fin de investigar diversos aspectos del lenguaje, como la estructura gramatical, el uso léxico, la variación lingüística, entre otros.
Los lingüistas y otros investigadores utilizan los corpus para extraer patrones lingüísticos, analizar la frecuencia y distribución de palabras y estructuras, estudiar cambios lingüísticos a lo largo del tiempo, desarrollar herramientas de procesamiento automático del lenguaje natural, y en general, para profundizar en la comprensión de cómo se utiliza el lenguaje en diferentes contextos y situaciones.