|
Un problema fundamental de estos sistemas es organizar y facilitar a los usuarios la digestión del enorme flujo de información que se puede recibir. Uno de los enfoques más utilizados es el de organizar los contenidos en la forma de portadas, tratando de representar de la mejor manera los contenidos recolectados a través de portales de información. Sin embargo, la creación de dichas portadas es un problema no trivial, el cual plantea una serie de desafíos interesantes. La detección de grupos o segmentos de contenido similar en la web es la técnica elegida para abordar el problema planteado. El presente proyecto plantea el desarrollo de un sistema de segmentación de artículos RSS, utilizando técnicas de clustering de documentos de manera de agrupar y reconocer los tópicos más relevantes en la web y visualizar los resultados de aplicar el sistema sobre la web sindicada chilena, a través del sitio web \emph{orbitando.com}. El desarrollo del proyecto fue dividido en tres etapas. En primer lugar se abordó el problema de la transformación de artículos en vectores, según el modelo de espacio vectorial, considerando las características particulares de los artículos RSS. A continuación se abordó el problema de la segmentación, a través de las técnicas clásicas de clustering aplicadas a una parte de la colección dentro de una cierta ventana de tiempo. Finalmente, se implementó un mecanismo de clustering en línea, que permitiría la posterior operación del sistema en el tiempo, manteniendo con vida los tópicos relevantes, y detectando la aparición de nuevos tópicos de interés. El resultado de esta implementación fue el prototipo de un sistema que permite reconocer los principales tópicos tratados en la web sindicada, y su posterior operación mediante la agregación en línea de nuevos artículos. Los resultados obtenidos cumplieron plenamente con lo esperado, y permiten dar un primer paso en el estudio de aplicaciones que aprovechan técnicas clásicas de la minería de datos, aplicadas al caso de los artículos sindicados en la web. |
|
indexacion de documentos
|
|
clustering batch
|
|
clustering online
|
| conjunto de referencia |
|
top-25 tópicos [articulos, graficos] listado de tópicos (completo) |
| resultados |
|
resultado batch total resultado batch enero resultado online febrero resultado online marzo |
| documentación aplicación |
|
documentación JAVADOC CHANGELOG |
| archivos de configuración |
|
stopwords (filtro de palabras) stopterms (filtro de términos) archivo de parámetros |
| referencias web |
|
...sobre periodismo y medios de comunicacion ...sobre la web 2.0
|
| algoritmo - blog - blogs - buscador - clustering - comunidad - datamining - google - internet - IR - lucene - medios_de_comunicacion - noticias - periodismo - ranking - redes_neuronales - rss - sindicacion - tagcloud - tagging - textmining - VSM - web2.0 - website - weka - yahoo |