Tecnología

¿Qué es la síntesis de voz?

La síntesis del habla es un proceso donde la comunicación verbal se replica a través de un dispositivo artificial. Una computadora que convierte texto en voz es un tipo de sintetizador de voz.

Las primeras formas de síntesis del habla se implementaron a través de máquinas diseñadas para funcionar como el tracto vocal humano. La máquina de hablar creada por Wolfgang von Kempelen en la década de 1700 es un ejemplo. Con este dispositivo, el discurso se produjo a través de un fuelle de cocina, una caña de gaita y una campana de clarinete. El fuelle de la cocina fue diseñado para actuar como un pulmón, mientras que la glotis (el área de las cuerdas vocales) estaba representada a través de la caña de la gaita. La campana del clarinete sirvió de boca.

El funcionamiento del dispositivo fue completamente manual. La mano derecha controlaba una serie de palancas mientras que la mano izquierda manipulaba la campana del clarinete (boca). También existía la opción de tapar las 'fosas nasales' para producir un sonido menos nasal. De cualquier manera, siempre que los controles básicos se hayan utilizado correctamente, la máquina recibió flujo de aire. Este flujo de aire determinó los tipos de sonidos que se producirían.

Las máquinas de habla posteriores durante los siglos XVIII y XIX mantuvieron esta configuración, aunque hubo mejoras. Por ejemplo, a finales de 1800, Joseph Faber creó una máquina de hablar que podía recibir información a través de un teclado y un pedal. La máquina también fue muy creativa, ya que el sonido salió a través de una "cara" artificial.

Cuando llegó el siglo XX, las innovaciones en electrónica permitieron que la síntesis de voz tomara una dirección aún más poderosa. Aunque la premisa de imitar el tracto vocal humano seguía siendo la misma, las máquinas de habla de principios del siglo XX podían producir mejores sonidos ya que la entrada era más precisa.

Sin embargo, no fue hasta el advenimiento de las computadoras que la síntesis de voz se pudo utilizar fuera del ámbito del entretenimiento. Esto se debe principalmente a que los sintetizadores de voz podrían almacenarse en software en lugar de en una máquina separada. Además, con las computadoras como ayuda, la síntesis de voz podría adoptar una forma diferente; utilizando voces humanas como fuente principal de sonido.

Esta forma de síntesis del habla se conoce como concatenativa. El proceso funciona conectando varias grabaciones del habla humana. El sonido resultante es mucho más natural y agradable para el oído. Esto contrasta con los programas que usan síntesis articulatoria, donde el habla se replica a través de un modelo computarizado del tracto vocal.

Los sintetizadores comerciales del habla pueden emplear métodos concatenativos o articulatorios, pero ambos pueden lograr el mismo objetivo; poder dar a las personas la oportunidad de escuchar mensajes de texto. Esto es especialmente útil en situaciones donde la lectura es molesta o imposible.

En el mundo de los negocios, tales situaciones son muy comunes, especialmente para las transacciones telefónicas. Sin alternativas de texto a voz (TTS), los dueños de negocios tendrían que gastar dinero contratando aún más personal de servicio al cliente. Las soluciones sintetizadas evitan este problema, ya que todo se hace por computadora; No es un ser humano.

El discurso sintetizado también juega un papel en la vida diaria, especialmente para las personas con discapacidad. Los relojes parlantes, los diccionarios y otros dispositivos pueden facilitar las cosas para las personas que tienen problemas para ver o leer. El discurso sintetizado incluso puede dar voz a las personas que no pueden hablar en absoluto. Steven Hawking, un famoso físico, es un ejemplo destacado. Como la enfermedad de Lou Gehrig lo ha silenciado, Hawking usa un sintetizador de voz para comunicarse con las personas.

También hay aplicaciones TTS disponibles para ayudar a las personas con diversas actividades informáticas. Para obtener este tipo de aplicaciones, la mayoría de los usuarios tendrán que comprar un software separado o descargar parches. La última opción suele ser gratuita, según el sistema operativo o el programa de procesamiento de texto que se utilice. Sin embargo, si una persona decide comprar un software separado, podría tener acceso a un sistema de mayor calidad. Se pueden ver ejemplos específicos a través de Natural Reader 7 y Text Aloud 2.

En definitiva, la síntesis de voz es una tecnología que ha revolucionado la forma en que la humanidad se comunica. En cierto sentido, le da al texto una vida propia. También le da al mundo la oportunidad de escuchar los pensamientos de personas brillantes que normalmente habrían estado sin voz.