Skip to main content

¿Qué es la transcripción de audio?

La transcripción de audio es el proceso de tomar palabras habladas y convertirlas en texto escrito. En el pasado, una persona se sentaba y escribía palabras mientras se hablaban. Ahora, existen grabaciones de audio de varios tipos y varios métodos de transcripción. Los métodos de grabación analógica y digital permitirán que una persona que no esté presente durante la conversación transcriba el texto. Además, muchos paquetes de software leerán archivos de audio y los convertirán rápidamente en texto sin tener que reproducirlos.

Durante muchos años, la transcripción de audio fue una profesión especializada y tediosa. Las personas que transcribieron el discurso tenían que estar presentes al momento de hablar, lo que a menudo significaba que las empresas tendrían que contratar personas capacitadas en técnicas avanzadas como la taquigrafía. Esto también limitó los servicios de transcripción a aquellos que tenían acceso a un transcriptor capacitado.

Con la invención de las grabaciones de audio, este campo cambió dramáticamente. Con una grabación, el transcriptor podría trabajar desde cualquier lugar donde se pudiera entregar la grabación. Además, la transcripción ya no necesitaba una taquigrafía, ya que la grabación podía revertirse y escucharse varias veces. Un solo transcriptor también podría funcionar para una multitud de clientes simultáneamente, ya que ya no necesitaba estar presente para los discursos.

Con el aumento en el uso de la computadora y las velocidades de Internet, el campo de la transcripción de audio se mantuvo prácticamente igual. Los archivos, en lugar de las cintas, a menudo se enviaban por correo electrónico en lugar de enviarse por correo normal. La velocidad del proceso aumentó, pero los métodos no.

Esto cambió a finales de los 90 con el uso creciente del software de reconocimiento de voz y dictado. El trabajo de transcripción iba cada vez más hacia la asistencia informática y luego a la automatización completa. Salieron paquetes de software que podían leer la información dentro de un archivo de audio y usar los patrones de onda del orador para construir una versión de texto de un discurso. Esto llevaría segundos en lugar de los minutos u horas de un transcriptor humano.

La transcripción de audio automatizada por computadora tiene algunas fallas que son difíciles de superar, la mayor de las cuales es una relativa falta de habla correctiva. Cuando un transcriptor humano escucha el texto, puede corregir pequeños errores en el discurso para hacerlo más legible. Si bien alguna transcripción es literal, lo que significa que es exactamente lo que la persona dijo, la mayoría no lo es. Sin un discurso correctivo, un humano a menudo tendrá que verificar la transcripción en busca de errores antes de usarla.

La otra falla común de la transcripción de audio basada en computadora radica en el discurso de los humanos. Dado que las personas tienen una gran variedad de tonos y patrones cuando hablan, crear un programa de computadora que pueda leer y traducir con precisión todo el rango es excepcionalmente difícil. Esto significa que una cierta cantidad de error es común en casi todo el software de transcripción. La forma más común de solucionar este defecto es a través del discurso aprendido, donde el programa y un solo orador trabajan juntos lo suficiente como para que el programa se centre en los patrones de la persona soltera.