Internet

¿Qué es la deduplicación?

La deduplicación es un proceso utilizado para eliminar datos redundantes. Durante el proceso, el disco duro de una computadora se escanea en busca de grandes secuencias de datos en las ventanas de comparación. Al escanear en busca de datos duplicados, normalmente se seleccionan secuencias de ocho kilobytes o más. Si la secuencia se encuentra en otra parte del sistema de almacenamiento, se hace referencia al archivo duplicado en lugar de almacenarse nuevamente.

Una deduplicación exitosa puede eliminar varios kilobytes de datos en una computadora, lo que genera beneficios obvios. La duplicación de datos ocupa espacio innecesario en el sistema, y cuando se eliminan datos extraños, esto deja al usuario con más espacio de almacenamiento en la computadora. Esto permitirá que el sistema funcione más rápido y de manera más eficiente porque no está empantanado con los datos adicionales. Además, la mejora del ancho de banda siempre es más notable cuando una computadora tiene más espacio libre.

La deduplicación implica hacer referencia a la gran cantidad de datos a la primera ubicación y eliminar las copias adicionales de los datos, que, sin embargo, se indexan en caso de que sean necesarias. A menudo, los mismos datos exactos se pueden almacenar en hasta 100 lugares diferentes en un disco duro. Si cada uno ocupa un megabyte de espacio, la deduplicación reducirá este espacio en el disco duro de 100 megabytes a solo uno. El proceso funciona archivando los datos, y el espacio adicional que se gana es muy beneficioso para el disco duro de una computadora.

Los beneficios adicionales de la deduplicación incluyen la reducción de la cantidad de espacio de respaldo necesario hasta en un 90 por ciento, la reducción de costos como los requisitos de energía, espacio y enfriamiento, la restauración de un nivel superior de servicio, la eliminación de muchos tipos diferentes de errores y la recuperación de datos en varios diferentes puntos Una desventaja de la deduplicación es que identifica los datos duplicados utilizando funciones hash criptográficas, que pueden no ser confiables, y una colisión u otro tipo de error provocaría la pérdida de datos. Además, si la persona que autorizó el procedimiento no es consciente de la reducción de redundancia involucrada, la confiabilidad de la computadora puede verse afectada negativamente.

La deduplicación de datos funciona segmentando primero cada pieza de datos que se procesa. Cada segmento se identifica y se compara con los datos que ya están en el sistema. Si los datos son únicos, se almacenan en un disco. Si es un dato duplicado, se crea una referencia en su lugar. La deduplicación se puede implementar utilizando un software llamado Data Domain, que funciona con los sistemas de datos y almacenamiento para filtrar los datos, haciendo referencia, eliminando o almacenando cada byte, según corresponda.