Compresión de Textos en Bases de Datos Digitales

>Nieves R. Brisaboa, Antonio Fariña, Gonzalo Navarro and Eva Lorenzo Iglesias

Este trabajo presenta una revisión de los métodos de compresión de textos, que permiten la búsqueda directa de palabras y frases dentro del texto sin necesidad de descomprimirlo.

Se presentan las técnicas de compresión basadas en Huffman y dos técnicas más recientes: el método Denso con Post-Etiquetado y el método (s,c)-Denso. Además se muestra cómo estos nuevos métodos son directamente comparables, en tasa de compresión, con las técnicas basadas en Huffman y cómo proporcionan una compresión más simple y rápida, manteniendo sus características más interesantes. De este modo estas nuevas técnicas son extremadamente adecuadas para la compresión de textos sobre los que haya que realizar operaciones de Text Retrieval, pues facilita la indexación y preprocesado de los mismos sin necesidad de descomprimirlos.