¿Qué es un modelo acústico?

26. 5. 2022

Everley

Un modelo acústico es esencialmente un mapa de la voz en relación con una serie de palabras impresas. Esta tecnología se utiliza en programas de reconocimiento de voz para ayudar a una computadora a aprender a reconocer los patrones de habla de una persona. Un modelo acústico es uno de los dos archivos principales necesarios para ejecutar un programa de reconocimiento de voz; el otro es el modelo de lenguaje, que indica palabras probables y patrones de habla que puede usar el hablante. Estos modelos se crean comparando los detalles de sonido de un archivo de audio hablado con el texto de las palabras habladas.

El software de reconocimiento de voz es un software diseñado para reconocer y transcribir o responder a las palabras que dice una persona. Muchos sistemas operativos están diseñados con capacidades básicas incorporadas de reconocimiento de voz que el usuario puede activar y desactivar. Las capacidades de reconocimiento de voz en los sistemas operativos generalmente le dan al usuario la capacidad de controlar la computadora y escribir palabras en la pantalla usando su voz.

Para acceder al software de reconocimiento de voz, un usuario necesita un micrófono para transmitir su voz a la computadora, más un programa que procese el sonido. Si bien muchas computadoras tienen micrófonos incorporados, un micrófono externo para auriculares le brinda al usuario el beneficio de un sonido de voz más claro y la libertad de moverse por la habitación mientras habla. Las marcas independientes de software de reconocimiento de voz incluyen LumenVox®, Loquendo® y Dragon®.

La mayoría de los programas de reconocimiento de voz tienen programación de modelo acústico que permite que el programa reconozca variaciones en la pronunciación. Usan patrones en el sonido de la voz del hablante para identificar palabras en el habla. Muchos están diseñados con un software de configuración creado para ayudar al usuario a crear un modelo acústico diseñado para interpretar su propia voz. Algunos programas avanzados de reconocimiento de voz pueden identificar e interpretar múltiples idiomas, a menudo con una pequeña cantidad de información de sonido. Cuanto más avanzado sea un programa de reconocimiento de voz, más probable es que interprete con precisión las palabras en función de su contexto, incluido el lugar en el que se pronuncia una palabra.

El campo de estudio que desarrolla la tecnología de reconocimiento de voz se llama lingüística computacional. La lingüística computacional implica estudio y diseño que crea software programado para comprender el habla humana. Este campo a menudo incorpora información del estudio de la psicología para crear modelos acústicos que pueden interpretar con mayor precisión el habla.

La palabra "acústico" generalmente se refiere a cualquier cosa que tenga que ver con el sonido. Aunque los modelos acústicos se usan con mayor frecuencia en el reconocimiento de voz, también se pueden usar en la música. Un modelo acústico de una pista de música puede identificar propiedades como ritmos por minuto, las teclas musicales o tonos dominantes en la música. Esta información puede ser utilizada por un programa de computadora para identificar una pista de música, o puede usarse para determinar libremente el género en el que la música probablemente se clasifica. Los modelos acústicos también se utilizan en un campo de estudio llamado psicoacústica, en el que los investigadores esperan aprender a estructurar la música que previsiblemente afecta el cerebro.