Skip to main content

¿Qué es la compresión de datos sin pérdida?

La compresión de datos sin pérdida es un método informático para almacenar archivos y combinarlos en archivos que ocupan menos espacio físico en la memoria que los archivos sin perder la información que contienen los datos en el proceso. La compresión con pérdida, por el contrario, reduce el tamaño del archivo con aproximaciones de los datos, y la restauración es muy similar al contenido original del archivo. Los algoritmos utilizados para la compresión de datos sin pérdidas son esencialmente un conjunto de reglas o instrucciones simplificadas para codificar la información utilizando menos bits de memoria mientras se conserva la capacidad de restaurar los datos a su formato original sin alteración.

Algunos tipos de archivos comunes que usan compresión de datos sin pérdida incluyen los archivos zip de computadora de International Business Machines (IBM) y los archivos de archivos gzip basados ​​en computadora de Unix. También se utilizan formatos de archivo de imagen como el formato de intercambio gráfico (GIF), gráficos de red portátiles (PNG) y archivos de mapa de bits (BMP). Los algoritmos de compresión de datos también varían según el tipo de archivo que se está comprimiendo, con variaciones comunes para los archivos de texto, audio y programas ejecutables.

Las dos categorías principales de algoritmos para la compresión de datos sin pérdidas se basan en un modelo estadístico de datos de entrada y un modelo de mapeo de cadenas de bits en un archivo de datos. Los algoritmos estadísticos de rutina utilizados son la transformación de Burrows-Wheeler (BWT), el algoritmo de Abraham Lempel y Jacob Ziv (LZ77) publicado en 1977, y el método de Predicción por coincidencia parcial (PPM). Los algoritmos de mapeo frecuentemente empleados incluyen el algoritmo de codificación Huffman y la codificación aritmética.

Algunos de los algoritmos de compresión de datos sin pérdida son herramientas de código abierto y otros son propietarios y patentados, aunque algunas patentes también han expirado. Esto puede ocasionar que los métodos de compresión a veces se apliquen al formato de archivo incorrecto. Debido al hecho de que ciertos métodos de compresión de datos son incompatibles entre sí, el almacenamiento de archivos mixtos a menudo puede degradar un componente de un archivo. Por ejemplo, un archivo de imagen con texto comprimido puede mostrar degradación en la legibilidad del texto una vez restaurado. Los escáneres y el software que emplean la inducción gramatical pueden extraer el significado del texto almacenado junto con los archivos de imagen aplicando lo que se conoce como análisis semántico latente (LSA).

Otra forma de método de algoritmo de mapeo para la compresión de datos sin pérdida es el uso de código universal. Más flexible de usar que la codificación Huffman, no requiere conocimiento de los valores enteros máximos con anticipación. Sin embargo, la codificación Huffman y la codificación aritmética producen mejores tasas de compresión de datos. También se están realizando esfuerzos para producir métodos universales de compresión de datos que creen algoritmos que funcionen bien para una variedad de fuentes.