Compresión y Consulta de Diccionarios de Texto en Grandes Colecciones de Datos

Nieves Brisaboa, Rodrigo Cánovas, Francisco Claude, Miguel Martínez-Prieto, and Gonzalo Navarro

La representación compacta de diccionarios de texto es un problema transversal a numerosas aplicaciones que manejan grandes colecciones de datos. Aún así su resolución no ha sido tratada tradicionalmente ya que el tamaño de estos diccionarios apenas suponí una pequeña fracción del tamaño total de las colecciones utilizadas. El asentamiento de aplicaciones relacionadas con la Bioinformática, la búsqueda y mineríen la Web o la consulta de grafos semánticos realza la necesidad de disponer de soluciones para la compresión de los grandes diccionarios que utilizan. Este trabajo presenta diferentes técnicas para la compresión de diccionarios de texto. Los resultados muestran que el espacio se puede reducir hasta el 20% del original, soportando la consulta en pocos microsegundos, mientras que tasas de compresión mejores (hasta el 10%) elevan los tiempos hasta órdenes de cientos de microsegundos.