Internet

¿Qué es la desduplicación de datos?

La deduplicación de datos es una técnica para comprimir datos donde se eliminan datos duplicados, manteniendo una copia de cada unidad de información en un sistema en lugar de permitir que prosperen los múltiplos. Las copias retenidas tienen referencias que permiten al sistema recuperarlas. Esta técnica reduce la necesidad de espacio de almacenamiento y puede mantener los sistemas funcionando más rápido además de limitar los gastos asociados con el almacenamiento de datos. Puede funcionar de varias maneras y se utiliza en muchos tipos de sistemas informáticos.

En la deduplicación de datos a nivel de archivo, el sistema busca los archivos duplicados y elimina los extras. La deduplicación a nivel de bloque examina los bloques de datos dentro de los archivos para identificar datos extraños. Las personas pueden terminar con datos duplicados por una amplia variedad de razones, y el uso de la deduplicación de datos puede simplificar un sistema, haciendo que sea más fácil de usar. El sistema puede examinar periódicamente los datos para verificar si hay duplicados, eliminar extras y generar referencias para los archivos que quedan.

Tales sistemas a veces se denominan sistemas de compresión inteligentes o sistemas de almacenamiento de instancia única. Ambos términos hacen referencia a la idea de que el sistema funciona de manera inteligente para almacenar y archivar datos con el fin de reducir la carga en el sistema. La deduplicación de datos puede ser especialmente valiosa con sistemas grandes donde se almacenan datos de varias fuentes y los costos de almacenamiento aumentan constantemente, ya que el sistema debe ampliarse con el tiempo.

Estos sistemas están diseñados para ser parte de un sistema más grande para comprimir y administrar datos. La deduplicación de datos no puede proteger los sistemas contra virus y fallas, y es importante usar una protección antivirus adecuada para mantener un sistema seguro y limitar la contaminación viral de los archivos, al tiempo que se realiza una copia de seguridad en una ubicación separada para abordar las preocupaciones sobre la pérdida de datos debido a interrupciones, daños a equipo, y así sucesivamente. Comprimir los datos antes de realizar una copia de seguridad ahorrará tiempo y dinero.

Los sistemas que utilizan la deduplicación de datos en su almacenamiento pueden ejecutarse de manera más rápida y eficiente. Todavía requerirán una expansión periódica para acomodar nuevos datos y abordar las preocupaciones sobre la seguridad, pero deberían ser menos propensos a llenarse rápidamente con datos duplicados. Esta es una preocupación especialmente común en los servidores de correo electrónico, donde el servidor puede almacenar grandes cantidades de datos para los usuarios y partes importantes de los mismos pueden consistir en duplicados como los mismos archivos adjuntos repetidos una y otra vez; por ejemplo, muchas personas que envían correos electrónicos desde el trabajo tienen pies de página adjuntos con descargos de responsabilidad por correo electrónico y logotipos de la empresa, y estos pueden ocupar espacio en el servidor rápidamente.