Una Técnica de Compresión para Documentos de Texto Considerando su Estructura

Joaquín Adiego, Pablo de la Fuente and Gonzalo Navarro.

En este trabajo se describe una nueva aproximación Lempel-Ziv pensada para comprimir documentos estructurados denominada LZCS, que saca partido de la información redundante que aparece en la estructura de los documentos. La idea principal es que pueden existir subárboles repetidos y éstos se pueden sustituir por una referencia a la primera ocurrencia de los mismos. La principal ventaja aportada es que los documentos que genera la transformación LZCS se pueden visualizar, acceder de forma aleatoria y navegar con facilidad. En una segunda etapa, los documentos procesados se pueden comprimir empleando cualquier técnica semiadaptativa, para que siga siendo posible el acceso aleatorio y la navegación por los mismos. LZCS es especialmente eficiente a la hora de comprimir colecciones con documentos muy estructurados, como los formularios XML utilizados en aplicaciones de comercio electrónico y en los documentos intercambiados en los servicios web. La comparación con otros compresores, estándares o basados en la estructura, muestra que LZCS es una elección muy competitiva para este tipo de documentos, mientras que los otros compresores no están pensados para soportar la navegación o el acceso aleatorio sobre los documentos comprimidos.