Tecnología

¿Qué es la compresión del habla?

La compresión de voz implica la compresión de datos de audio en forma de voz. La voz es una forma única de datos de audio, con una serie de necesidades que deben abordarse durante la compresión para garantizar que sea inteligible y razonablemente agradable de escuchar. Varios programas de software se han diseñado específicamente teniendo en cuenta la compresión de voz, incluidos los programas que pueden realizar funciones adicionales, como cifrar los datos comprimidos por seguridad.

Los datos de audio sin procesar pueden ocupar una gran cantidad de memoria. Durante la compresión, los datos se comprimen para que ocupen menos espacio. Esto libera espacio en el almacenamiento y también se vuelve importante cuando los datos se transmiten a través de una red. En una red de telefonía móvil, por ejemplo, si se usa la compresión de voz, se pueden acomodar más usuarios en un momento dado porque se necesita menos ancho de banda. Del mismo modo, la compresión del habla se vuelve importante con la teleconferencia y otras aplicaciones; El envío de datos es costoso, y cualquier cosa que reduzca el volumen de datos que debe enviarse puede ayudar a reducir los costos.

La voz es un tipo de datos de audio relativamente simple y ampliamente estudiado, lo que facilita la compresión de alguna manera. Sin embargo, es importante asegurarse de que la compresión conserve la integridad del discurso. Si los datos se distorsionan de alguna manera, puede ser difícil de entender y también puede ser difícil de escuchar. Por lo tanto, la compresión de voz debe realizarse de manera que conserve las cualidades clave de los datos. Es fácil para el oyente cantar "mal" a un oyente, lo que interfiere con la comprensión de los datos transmitidos.

Los programas que manejan la creación de archivos de audio pueden tener una opción de compresión disponible. Después de grabar o generar el archivo de audio sin formato, las personas pueden elegir entre varios parámetros para comprimir el archivo a un tamaño más manejable. La compresión de voz también se puede hacer sobre la marcha, como cuando las personas usan teléfonos celulares y la red comprime los datos mientras genera una señal de datos para que las personas puedan hablar en tiempo real.

Si los datos también necesitan ser encriptados, esto puede hacerse en tiempo real o en una segunda pasada que encripta los datos comprimidos. En este caso, alguien que quiera escuchar el discurso necesitará descifrar los datos y ejecutarlos a través de un programa, que puede estar integrado en un equipo como un teléfono seguro, que es capaz de leer datos comprimidos.