Una Técnica de Compresión para Documentos de Texto Considerando su Estructura
Joaquín Adiego, Pablo de la Fuente and Gonzalo Navarro.
En este trabajo se describe una nueva aproximación Lempel-Ziv
pensada para comprimir documentos estructurados denominada LZCS,
que saca partido de la información redundante que aparece en la estructura
de los documentos. La idea principal es que pueden existir subárboles
repetidos y éstos se pueden sustituir por una referencia a la primera
ocurrencia de los mismos. La principal ventaja aportada es que los documentos
que genera la transformación LZCS se pueden visualizar, acceder
de forma aleatoria y navegar con facilidad. En una segunda etapa, los
documentos procesados se pueden comprimir empleando cualquier técnica
semiadaptativa, para que siga siendo posible el acceso aleatorio y la
navegación por los mismos. LZCS es especialmente eficiente a la hora de
comprimir colecciones con documentos muy estructurados, como los formularios
XML utilizados en aplicaciones de comercio electrónico y en los documentos
intercambiados en los servicios web. La comparación con otros compresores,
estándares o basados en la estructura, muestra que LZCS es una elección
muy competitiva para este tipo de documentos, mientras que los otros
compresores no están pensados para soportar la navegación o el acceso
aleatorio sobre los documentos comprimidos.