Compresión y Consulta de Diccionarios de Texto en Grandes Colecciones
de Datos
Nieves Brisaboa, Rodrigo Cánovas, Francisco Claude, Miguel
Martínez-Prieto, and Gonzalo Navarro
La representación compacta de diccionarios de texto es un
problema transversal a numerosas aplicaciones que manejan grandes colecciones
de datos. Aún así su resolución no ha sido tratada
tradicionalmente ya que el tamaño de estos diccionarios apenas
suponí una pequeña fracción del tamaño total de
las colecciones utilizadas. El asentamiento de aplicaciones relacionadas con
la Bioinformática, la búsqueda y mineríen la Web o la
consulta de grafos semánticos realza la necesidad de disponer de
soluciones para la compresión de los grandes diccionarios
que utilizan. Este trabajo presenta diferentes técnicas para la
compresión de diccionarios de texto. Los resultados muestran que el
espacio se puede reducir hasta el 20% del original, soportando la consulta en
pocos microsegundos, mientras que tasas de compresión mejores (hasta el
10%) elevan los tiempos hasta órdenes de cientos de microsegundos.