Skip to main content

¿Cuáles son los problemas más comunes de reconocimiento de voz?

  • Burnell

El software de reconocimiento de voz ha avanzado mucho desde que se inventó por primera vez, pero aún tiene varios problemas importantes que impiden que se use exclusivamente como método de transcripción. Algunos de los problemas de reconocimiento de voz que son difíciles de resolver incluyen variaciones en la pronunciación de las palabras, acentos individuales, homónimos y ruidos ambientales no deseados. Otro conjunto de problemas de reconocimiento de voz involucra el tipo de hardware utilizado para realmente ingresar el sonido, porque los resultados pueden tener un gran impacto en cómo el software interpretará la voz. También existe el problema de no conocer el contexto de las palabras que se hablan, lo que puede conducir a un texto que no tenga signos de puntuación o deletreos inexactos.

Uno de los problemas de reconocimiento de voz más básicos es la calidad de los dispositivos de entrada que se utilizan. Si un micrófono no es lo suficientemente sensible, o es demasiado sensible, puede crear información de audio que es difícil de descifrar para el software. Esto es especialmente cierto cuando un micrófono es tan sensible que el habla se distorsiona, lo que hace que el software de reconocimiento sea casi inútil. Un problema similar proviene del ruido de fondo que puede ser problemático para separarse del discurso principal y puede causar traducciones inexactas cuando se incluye en el procesamiento del discurso.

Las diferencias en la pronunciación, los acentos y la cadencia del habla se combinan para formar uno de los problemas de reconocimiento del habla más generalizados. Cuando se puede pronunciar una sola palabra de varias maneras, el software puede confundirse y malinterpretar lo que se dice. Lo mismo puede ocurrir cuando una persona habla más lento o más rápido de lo que el programa espera. Hay algunas soluciones parciales, como entrenar el software en los patrones de voz de un solo usuario y usar algoritmos dinámicos de distorsión de tiempo para hacer coincidir el habla con la base de datos de muestras, pero no resuelven todos los problemas.

El más complejo de los problemas de reconocimiento de voz es identificar el contexto de las palabras que se hablan. El software de la computadora no puede identificar el significado deseado de una colección de palabras, lo que genera una serie de problemas con el texto transcrito. Las palabras que tienen un sonido similar, como "su" y "allí", solo se pueden deletrear con precisión cuando se conoce el contexto de uso. Por esta misma razón, la puntuación precisa es casi imposible de colocar para el software basándose únicamente en conocer la secuencia de palabras. Existe un software de transcripción funcional que se utiliza en campos como la medicina, pero el resultado es a menudo un bloque de palabras sin ningún tipo de separación, lo que significa que todavía se necesita un transcriptor humano para editar el documento y crear una copia final legible.