Metodología

Una vez expuestas las principales líneas de trabajo del proyecto, se presenta a continuación el esquema de trabajo para su desarrollo:

  • Estudiar y conocer publicaciones acerca de text-mining y clustering (2 semanas).
  • Definir modelo de datos a usar y estudiar modelo de orbitando.com (2 semanas).
  • Definir el espacio de artículos, y definir métricas (3 semanas).
  • Elección e implementación de los algoritmos de clustering (3 semanas).
  • Implementación de la interfaz de la aplicación (3 semanas).
  • Realizar experimentos y validar lo estudiado (1 semana).

La metodología de trabajo puede ser vista como la implementación de las distintas etapas por las cuales deben pasar los artículos en el sistema. Estas etapas corresponden a la transición entre los distintos estados que se pueden observar: documento-rss, espacio-vectorial, espacio-vectorial clusterizado, visualización en la interfaz. Luego, las tres principales tareas serán la transformación de los documentos de entrada en vectores del espacio de artículos, la tarea de segmentación (clustering) de los vectores en dicho espacio, y finalmente, la visualización de los tópicos recogidos a partir de los clusteres formados.

Figura: Resumen del sistema, que muestra los distintos estados por los cuales pasarán los artículos recibidos.
\includegraphics{images/metodologia.eps}

dgomez@dcc.uchile.cl HomePage DanielGomezM. © 2005, 2006, 2007