La sindicación de contenidos en la web permite la generación y distribución de contenidos a través de canales de información como blogs, medios de prensa y comunidades digitales. En la web actual existen millones de canales, los cuales producen un flujo continuo de información actualizada: artículos de texto, fotografías, videos, etc. Los canales constantemente publican resúmenes de contenido en la forma de archivos de metadatos RSS o Atom, que son recolectados por agregadores comunitarios en la web, o directamente por los consumidores finales.

Un problema fundamental de estos sistemas es organizar y facilitar a los usuarios la digestión del enorme flujo de información que se puede recibir. Uno de los enfoques más utilizados es el de organizar los contenidos en la forma de portadas, tratando de representar de la mejor manera los contenidos recolectados a través de portales de información. Sin embargo, la creación de dichas portadas es un problema no trivial, el cual plantea una serie de desafíos interesantes.

La detección de grupos o segmentos de contenido similar en la web es la técnica elegida para abordar el problema planteado. El presente proyecto plantea el desarrollo de un sistema de segmentación de artículos RSS, utilizando técnicas de clustering de documentos de manera de agrupar y reconocer los tópicos más relevantes en la web y visualizar los resultados de aplicar el sistema sobre la web sindicada chilena, a través del sitio web \emph{orbitando.com}.

El desarrollo del proyecto fue dividido en tres etapas. En primer lugar se abordó el problema de la transformación de artículos en vectores, según el modelo de espacio vectorial, considerando las características particulares de los artículos RSS. A continuación se abordó el problema de la segmentación, a través de las técnicas clásicas de clustering aplicadas a una parte de la colección dentro de una cierta ventana de tiempo. Finalmente, se implementó un mecanismo de clustering en línea, que permitiría la posterior operación del sistema en el tiempo, manteniendo con vida los tópicos relevantes, y detectando la aparición de nuevos tópicos de interés.

El resultado de esta implementación fue el prototipo de un sistema que permite reconocer los principales tópicos tratados en la web sindicada, y su posterior operación mediante la agregación en línea de nuevos artículos. Los resultados obtenidos cumplieron plenamente con lo esperado, y permiten dar un primer paso en el estudio de aplicaciones que aprovechan técnicas clásicas de la minería de datos, aplicadas al caso de los artículos sindicados en la web.

presentación proyecto (pdf)

indexacion de documentos
espacio_vectorial - wvtool - filtros - tfidf - stemming - stopwords

clustering batch
clusters - centroides - cluto - distancia_coseno - funcion_objetivo

clustering online
incremental - singlepass - similaridad - eventos - umbrales - purge

conjunto de referencia

top-25 tópicos [articulos, graficos]
listado de tópicos (completo)

resultados

resultado batch total
resultado batch enero
resultado online febrero
resultado online marzo

documentación aplicación

documentación JAVADOC
CHANGELOG

archivos de configuración

stopwords (filtro de palabras)
stopterms (filtro de términos)
archivo de parámetros

referencias web

...sobre periodismo y medios de comunicacion
...sobre la web 2.0

algoritmo - blog - blogs - buscador - clustering - comunidad - datamining - google - internet - IR - lucene - medios_de_comunicacion - noticias - periodismo - ranking - redes_neuronales - rss - sindicacion - tagcloud - tagging - textmining - VSM - web2.0 - website - weka - yahoo