¿Qué es el reconocimiento de voz robusto?

27. 8. 2022

Baird

El reconocimiento de voz robusto puede detectar adecuadamente el habla en condiciones adversas como entornos ruidosos o en grabaciones irregulares. Esto puede tener aplicaciones importantes en varias áreas, como la aplicación de la ley o el diseño de audífonos, por ejemplo. La investigación y el desarrollo de este tema se realiza en instituciones académicas, empresas privadas y organizaciones benéficas con interés en este campo en todo el mundo. Las carreras en este campo están abiertas a personas como ingenieros de sonido, programadores de computadoras y audiólogos.

El reconocimiento de voz convencional adolece del problema de haber sido diseñado para entornos ideales. Un algoritmo puede reconocer el habla si ocurre en un ambiente tranquilo con poco o ningún ruido de fondo, y si el hablante articula claramente las palabras. Dichos programas pueden luchar con acentos que no han aprendido, y también tienden a descomponerse en entornos con mucho ruido de fondo. El mundo a menudo es ruidoso y, por lo tanto, dicho equipo puede ser de uso limitado en algunos entornos sin un reconocimiento de voz robusto.

En el dictado, por ejemplo, la mayoría de los sistemas se basan en un micrófono que se usa cerca de la boca, para permitir que la voz del hablante domine y el programa pueda procesar con precisión el discurso. El reconocimiento de voz utilizado en aplicaciones como la escucha remota para la aplicación de la ley, el diseño de audífonos y la restauración de grabaciones históricas también puede tener dificultades con el ruido de fondo. El reconocimiento de voz robusto implica el desarrollo de algoritmos que pueden procesar y descartar este ruido para dejar solo la voz.

Esto requiere habilidades informáticas complejas. Los entornos ruidosos pueden contener una amplia variedad de sonidos, lo que dificulta la creación de un filtro de paso que reduzca el rango de ruido. Es posible que el filtro no capte todos los ruidos problemáticos y también podría interferir potencialmente con el discurso. En el reconocimiento de voz robusto, los programadores trabajan para desarrollar programas que puedan identificar la voz y separarla de otras pistas de sonido. Una vez separado, puede ser sometido a otro pase para limpiar la señal, permitiendo que el programa ejecute un algoritmo de reconocimiento de voz normal para determinar lo que se dice.

El reconocimiento de voz preciso puede ser importante para menús automatizados, dictado y otras aplicaciones en tiempo real. El desarrollo de un reconocimiento de voz robusto también puede ayudar con la creación de audífonos y software que identifiquen las voces humanas en un zumbido de otro ruido y transmitan solo estas al oyente. Esto hace que el reconocimiento de voz sea más útil en entornos como fiestas llenas de gente y eventos en los que pueden competir múltiples sonidos, lo que podría ahogar las voces de los oyentes que dependen del reconocimiento de voz.