Skip to main content

¿Qué es la deformación dinámica del tiempo?

La deformación dinámica del tiempo (DTW) implica un método de cálculo, llamado algoritmo, para comparar sonidos, videos y gráficos que pueden ser similares, pero las muestras pueden tener diferencias sutiles. Los cálculos suelen formular una representación lineal de la muestra y medir las diferencias en función del tiempo. Se pueden asignar diferentes elementos de una muestra en una cuadrícula para identificar similitudes, mientras que los comandos para funciones a menudo usan símbolos para identificar cada variable. El reconocimiento de voz, por ejemplo, a veces usa la deformación dinámica del tiempo para unir palabras incluso si se hablan a diferentes velocidades o ciertas partes se pronuncian de manera diferente.

Muchos programas de reconocimiento de voz utilizan la deformación dinámica del tiempo porque las personas a menudo hablan a ritmos diferentes. Ciertos sonidos vocálicos pueden anunciarse de manera diferente dependiendo de las emociones u otros factores. Algunos programas pueden reconocer las palabras habladas sin importar quién está hablando. Por esta razón, generalmente no es efectivo sumar las distancias en intervalos de tiempo para comparar sonidos. Con DTW, se analizan varios puntos específicos de tiempo para cada señal; Estas distancias se calculan en una cuadrícula que se extiende desde la parte inferior izquierda a la superior derecha.

Las similitudes en las partes correspondientes de dos muestras se pueden medir utilizando la distancia de Levenshtein. Las letras se utilizan para representar los cambios entre una fuente y otra. La solución al algoritmo generalmente es un número mayor cuanto más diferentes son las dos muestras. Este concepto se usa a menudo para el reconocimiento de voz, así como para la corrección ortográfica y el análisis de material genético.

En algunas mediciones, los cambios de frecuencia pueden compensar la capacidad de deformación dinámica del tiempo. Las señales se pueden calcular de tal manera que su forma se use independientemente de la frecuencia. Las señales moduladas también pueden plantear un problema, pero una cuadrícula que calcula distancias entre segmentos de línea en lugar de puntos puede compensar.

La alineación de secuencias es generalmente matemática y se necesitan algunas habilidades de programación de computadoras para comprenderla completamente. Los algoritmos de deformación dinámica del tiempo dependen de algunas condiciones básicas para calcular de manera realista las diferencias entre muestras de audio o visuales. Considerando una muestra como una ruta a lo largo de una cuadrícula, el algoritmo a menudo sigue reglas, como que la ruta no puede retroceder y que se mide paso a paso. Además del formato inferior izquierdo a superior derecho, las mediciones se limitan a ubicaciones cercanas a una línea diagonal. Los valores que son demasiado empinados o poco profundos a menudo se ignoran porque pueden causar errores en la medición final.