¿Qué es el reconocimiento de voz?

25. 5. 2022

Aubrey

El reconocimiento de voz puede referirse a uno de los dos tipos de ciencias de la computación: identificación forense de voz o capacidad de voz a texto. Este artículo aborda la última definición.

El reconocimiento de voz, o reconocimiento de voz en este caso, es una tecnología informática que utiliza entrada de audio para ingresar datos en lugar de un teclado. Hablar con un micrófono, por ejemplo, produce el mismo resultado que escribir palabras manualmente con un teclado. En pocas palabras, el software de reconocimiento de voz está diseñado con una base de datos interna de palabras o frases reconocibles. El programa hace coincidir la firma de audio del discurso con las entradas correspondientes en la base de datos.

Aunque convertir el discurso en texto puede parecer fácil, es una tarea extremadamente difícil. El problema radica en la variedad prácticamente infinita de patrones de habla y acentos individuales, agravados por la tendencia humana natural de ejecutar palabras juntas.

Una ilustración de los desafíos inherentes del software de reconocimiento de voz aparece en una camiseta creada por investigadores de Apple. La camisa dice: "Ayudé a Apple a destruir una bonita playa". Cuando se habla en voz alta, parece que ayudé a Apple a reconocer el habla.

Se utilizan varios modelos de software de reconocimiento de voz para una variedad de aplicaciones, desde el dictado personal hasta el enrutamiento automático de llamadas comerciales, desde ayudar a los discapacitados hasta la subtitulación de eventos deportivos y de noticias. Cada modelo se comporta de manera diferente y tiene sus propias capacidades y límites.

Los programas de reconocimiento de voz que requieren que el usuario "entrene" al software para que reconozca sus patrones estilizados de habla particulares se denominan sistemas dependientes del hablante . Las personas comúnmente usan este tipo de programas en casa o en la oficina. Se pueden ingresar correos electrónicos, notas, cartas, datos y texto hablando por un micrófono.

Algunos sistemas de reconocimiento de voz, llamados sistemas de habla discretos , requieren que el usuario hable clara y lentamente y separe las palabras. Los sistemas de habla continua están diseñados para comprender un modo de hablar más natural.

Los sistemas discretos de reconocimiento de voz se utilizan ampliamente para el enrutamiento de servicio al cliente. El sistema es independiente del hablante , pero solo comprende un pequeño grupo de palabras o frases. La persona que llama tiene la opción de responder una pregunta, generalmente con "sí" o "no". Después de recibir una respuesta, el sistema eleva a la persona que llama al siguiente nivel. Si la persona que llama responde con una respuesta única, la respuesta automática suele ser: "Lo siento, no te entendí; vuelve a intentarlo", repitiendo la pregunta y las respuestas disponibles. Este tipo de reconocimiento de voz también se conoce como reconocimiento gramatical restringido.

El habla continua es una forma más sofisticada de software de reconocimiento de voz, en el que la persona que llama puede hablar de forma natural para explicar un problema o solicitar un servicio. Este programa está diseñado para elegir palabras o frases clave y hacer una mejor estimación estadística de lo que quiere el cliente. Hablar claramente ayuda al reconocimiento de voz para identificar la necesidad. Este tipo de sistema tiene una base de datos mucho más intensa que los sistemas de voz discretos y también se conoce como reconocimiento de lenguaje natural.

El reconocimiento automático de voz (ASR) es un modelo de reconocimiento de voz diseñado para dictado. Este software difiere de los modelos anteriores en que no se esfuerza por comprender lo que se dice, solo por identificar las palabras pronunciadas. Dado que muchas palabras en inglés suenan igual, los errores se cometen fácilmente. Sin embargo, las principales compañías como Microsoft están invirtiendo en el reconocimiento de voz, y la propia predicción de Bill Gates hace que ASR entienda el habla continua para el año 2011. El software ASR a menudo se encuentra en las grabadoras de voz digital.

Los jugadores dominantes en el software de reconocimiento de voz han sido ScanSoft y Nuance, y la primera compañía adquirió la segunda. Los jugadores más pequeños incluyen Fonix Speech, Aculab y Verbio, entre otros, con grandes corporaciones como IBM y Microsoft antes mencionados que también invierten en la tecnología. Aunque muchos todavía sienten que es más difícil entrenar software y corregir errores que simplemente usar un teclado, llegará un momento en que el software de reconocimiento de voz probablemente cerrará esa brecha. Aumentar los teclados con la capacidad de discriminar para usar el habla probablemente se convertirá en algo común.

El software de reconocimiento de voz está ganando popularidad a medida que se vuelve más sofisticado. Es especialmente útil en los negocios donde puede reemplazar a un operador en vivo para canalizar llamadas, difundir información, tomar pedidos y realizar otras funciones muy útiles. Sin embargo, también está ganando popularidad como una aplicación de escritorio, ayudada por software de renombre como ScanSoft, DragonNaturallySpeaking y ViaVoice de IBM.