Internet

¿Qué es un corpus de texto?

Un corpus de texto es una colección de textos, hablados o escritos, que es la base para la investigación lingüística del corpus. El almacenamiento de estos grandes bancos de textos permite a los investigadores analizar varios aspectos de cualquier idioma. Un corpus de texto es una forma eficiente de realizar investigaciones porque una vez que se reúne el material, se puede utilizar para investigar una variedad de cuestiones relacionadas con el lenguaje, incluida la morfología, la sintaxis, el vocabulario y la pragmática. A diferencia de los métodos más antiguos para llevar a cabo una investigación lingüística, un corpus de texto permite a los investigadores observar el lenguaje de acuerdo con la forma en que realmente se usa en contexto, en lugar de cómo hipotéticamente podría usarse. Los lingüistas suelen tener acceso a muestras de datos mucho más grandes que cuando tenían que limitarse a los datos que podían recopilar en un período limitado de tiempo con recursos financieros limitados.

Los cuerpos generalmente se almacenan en una computadora, por lo que se pueden crear programas de software para facilitar la investigación. Una forma común de usar un corpus de texto es contar el número total de palabras en los textos, luego contar y clasificar el número de veces que aparecieron ciertas palabras. La relación que se crea entre el número total de palabras y palabras específicas se conoce como la Ley de Zipf. Esta relación ayuda a explicar la frecuencia de palabras en un idioma. Comprender la Ley de Zipf ayuda a los programadores informáticos a diseñar software que satisfaga las demandas de un idioma determinado. Pueden contar y predecir con qué frecuencia se usarán ciertas palabras y frases como entrada.

Otra forma de usar un corpus de texto es etiquetar elementos específicos que el investigador quiera estudiar. Un ejemplo de cómo se usaría esto es contar cuántas veces aparece la voz pasiva en diferentes géneros de texto. El etiquetado también ha sido útil para crear programas informáticos que ayudan a las personas en su vida diaria. El etiquetado de parte del discurso ha sido crítico para el desarrollo de software de reconocimiento de voz. En inglés, por ejemplo, la misma palabra puede tener más de una parte del discurso. Las palabras multisilábicas a menudo se enfatizan de manera diferente para indicar qué parte del discurso se está utilizando. El sustantivo "objeto" hace hincapié en la primera sílaba, pero el verbo "objeto" se destaca en la segunda sílaba. Etiquetar la forma nominal de "objeto" ayuda al programa de computadora a leerlo en voz alta correctamente y reconocerlo cuando un humano dice "objeto".

Los corpus de texto son útiles tanto para la lingüística humana como para la lingüística computacional. Permiten realizar investigaciones que ayuden a las personas a comprender mejor el lenguaje que usan los humanos, lo que a su vez ayuda a desarrollar el lenguaje que usan las computadoras. Se han dado grandes pasos en la tecnología de reconocimiento de voz, lo que permite a los consumidores controlar verbalmente las computadoras en sus oficinas, hogares y vehículos. Los avances continuos permitirán a los humanos comunicarse con las computadoras tan naturalmente como lo hacen entre ellos.