2.6 ## ##lustering y Ve** **ino más ## ##er** **ano

2.6 Clustering y Vecino más Cercano

Estas son de las técnicas más antiguas en el Minado de Datos, y por lo tanto, las más usadas.

Clustering es tal como dice su titulo "Agrupar elementos parecidos" [7]

Ejemplo – Juntar alumnos de cierta edad en una misma clase

Vecino más cercano, es una técnica predictiva muy parecida al clustering. Su esencia es tal que, para predecir el valor de un registro, se buscan registro parecidos en la Base de Datos histórica y se usan esos valores para extrapolar el registro desconocido

Ejemplo – Extrapolar el sueldo de una persona en una vecindad. Es probable que todos sus vecinos ganen una cantidad de dinero parecida, por lo que sí una persona gana $1.000.000, es probable que un vecino gane más o menos lo mismo. Sería más factible usar sólo los vecinos más cercanos para la predicción.

Clustering antes se llamaba segmentación, dado que todo lo que hace es segmentar los datos en categorías fáciles de ver y de entender. Su utilización proviene de la necesidad de ver el sistema completo y de manera sencilla.

La técnica del vecino más cercano lleva el clustering un paso más allá, dado que con los sistemas segmentados, se pueden hacer predicciones contextuales a partir de los datos históricos.

Departamento de Ciencias de la Computacion, Universidad de Chile.