¿Cuáles son las diferentes técnicas de reconocimiento de voz?

6. 1. 2022

Hobart

Se utilizan varias técnicas de reconocimiento de voz para capturar palabras habladas y convertirlas en datos que pueden ser utilizados por un programa de software. Hay tres formas generales de analizar el habla en un esfuerzo por determinar lo que se dice. El primero se llama discurso discreto, lo que significa que solo se habla una sola palabra a la vez. El segundo se conoce como discurso conectado, y las palabras deben ser pronunciadas de cierta manera para ser entendidas. Finalmente, hay un discurso continuo, que es como la mayoría de la gente habla normalmente.

El algoritmo más común utilizado para todos los tipos de técnicas de reconocimiento de voz es el modelo oculto de Markov (HMM). Este sistema involucra grandes árboles de datos de fonemas, o sonidos y sílabas básicos, que se dividen por la probabilidad estadística de que un sonido siga a otro. Al comparar cada fonema con un nodo en el árbol de datos de sonidos, la palabra completada real se puede determinar con una alta tasa de precisión en un período de tiempo relativamente corto.

Un problema que es difícil de superar con algunas técnicas de reconocimiento de voz es aislar dónde comienza y termina una palabra. Esta tarea se complica por el ruido de fondo en la sala y el hecho de que algunas sílabas tienen una firma de audio que se asemeja a un salto entre palabras. Por esta razón, las técnicas de reconocimiento de voz discretas y conectadas son las más precisas.

Otro factor que separa las diferentes técnicas de reconocimiento de voz es la cuestión del vocabulario de software. El software que interpreta el habla puede tener un vocabulario muy limitado con una alta precisión, o un vocabulario amplio que debe coincidir con los patrones de habla individuales de un usuario específico. Cuando un programa utiliza el método HMM para agrupar palabras, cuanto menor sea el número de palabras que se entiendan, más preciso puede ser el programa. Este es el método que utilizan la mayoría de los sistemas telefónicos automatizados para descifrar números o respuestas a preguntas.

Las técnicas de reconocimiento de voz que comprenden un vocabulario extenso generalmente están diseñadas para interactuar con muy pocos o solo un usuario. Esto se debe a que el programa debe estar capacitado para comprender los patrones de habla de la persona que habla. La capacitación implica leer párrafos de texto prefabricados en el software. Las palabras que se leen son conocidas, por lo que el programa puede construir un modelo estadístico de fonemas específicos para el usuario. Esto le da al programa una oportunidad mucho mejor de entender al usuario, pero también puede dificultar la comprensión del programa de las personas con las que no se ha capacitado.

La más difícil de las técnicas de reconocimiento de voz es interpretar el habla continua o natural. Muchas personas tienden a escribir palabras juntas y hablar a diferentes velocidades, por lo que la precisión de los programas que traducen el habla continua es menor que la de los otros métodos. Aún así, existen programas que pueden traducir este tipo de discurso, algunos de ellos emplean lógica difusa y redes neuronales para ayudar a reconocer patrones y aislar palabras.