¿Qué es la máquina de escuchar?

11. 2. 2022

Broderick

La escucha a máquina es el procesamiento de sonidos a través de una computadora de una manera que imita el procesamiento de señales humanas. Las computadoras se pueden programar y entrenar para reconocer e interpretar una variedad de entradas de audio. Esta tecnología se puede aplicar en una amplia variedad de formas, desde el análisis de inteligencia hasta el estudio de la música. Los investigadores en este campo trabajan en empresas privadas, instituciones académicas y agencias gubernamentales para mejorar las herramientas de escucha de máquinas y encontrar nuevas aplicaciones. Integra elementos de acústica, ingeniería eléctrica, robótica y procesamiento de señales.

Para reconocer los sonidos, las computadoras deben poder escucharlos y procesarlos. Pueden usar captaciones de sonido para manejar el ruido ambiental, o pueden escuchar grabaciones. Los sonidos se pueden ejecutar a través de algoritmos para determinar qué son y qué hacer con ellos. Las respuestas de la computadora pueden depender de su programación, capacitación y nivel de sofisticación.

Se puede ver un ejemplo simple de escucha de máquina con badajos y software activado por voz. Los badajos permiten a las personas encender y apagar los circuitos con un aplauso que activa la unidad base. El software que responde a los comandos de voz puede permitir que las personas lo controlen con sus voces, lo que requiere la capacidad de identificar la voz e interpretar los sonidos. Dichos programas pueden usar la capacitación para aprender a reconocer un orador específico y manejar acentos, cambios en la sintaxis y otras variaciones entre los oradores.

La escucha de máquinas más compleja se puede utilizar en campos como la música, donde los investigadores identifican y estudian patrones. Los musicólogos forenses, por ejemplo, pueden comparar y contrastar música de diferentes fuentes y pueden usar la escucha automática en su trabajo. Pueden determinar si la música parece tener un origen común o si tiene otras características de interés. Esta tecnología también se puede utilizar para estudiar la armonía y desarrollar teorías sobre cómo podría haber sonado la música histórica.

El análisis de inteligencia también se basa en la escucha automática. Es posible que las agencias de inteligencia deban procesar enormes cantidades de datos de audio en forma de conversaciones telefónicas, debates en espacios públicos, etc. Pagar a los seres humanos para que escuchen todo el audio y desarrollen informes puede ser costoso, y los oyentes aburridos pueden perder información importante. La escucha automática puede permitir que una agencia procese automáticamente el audio para extraer datos que requieren mucha atención, en función de palabras clave, tonos de estrés en las voces y otros parámetros. Los analistas de inteligencia pueden priorizar su trabajo sobre la base de este análisis automático para escuchar el audio que probablemente sea más importante primero.