Lematización basada en análisis no supervisado de corpus


Alejandro Bassi A.

Departamento de Ciencias de la Computación
Universidad de Chile
Av. Blanco Encalada 2120, Santiago, Chile

Introducción

La lematización es el proceso mediante el cual las palabras de un texto que pertenecen a un mismo paradigma flexivo o derivativo son llevadas a una forma normal que representa a toda la clase. Esta forma normal, llamada lema, es típicamente la palabra utilizada como entrada en los diccionarios de lengua: el infinitivo para las conjugaciones verbales, el masculino singular para adjetivos, etc. Otra manera de enfrentar la normalización, es separar las palabras análizadas en un núcleo conceptual (lexema) y agregados morfológicos (morfemas). En este caso, la lematización consiste en encontrar el lexema de las palabras analizadas. Para la mayoría de las lenguas europeas, esto se traduce por encontrar una combinación raiz+sufijo en que la raiz corresponde al lexema buscado y el sufijo a un morfema. El proceso de eliminar sufijos morfológicos se conoce como stemming en la literatura técnica, sin embargo puede considerarse como una variante de lematización.

La importancia de la lematización radica en el hecho que, para acceso por contenido a bases de datos textuales, permite superar las limitaciones de una búsqueda simple de strings, haciendo que relaciones ocultas por la variabilidad morfológica de las palabras queden manifiestas. La lematización mejora por lo tanto el recubrimiento (recall) aunque pueda ser a expensas de la precisión cuando diferentes conjugaciones morfológicas de una misma raiz están asociadas a conceptos distintos.

La lematización está muy relacionada con el etiquetado automático de textos (POS tagging), que consiste en atribuir a cada palabra su categoría gramatical, ya que la categoría puede determinarse por las flexiones o derivaciones (ej: en castellano -ar indica un infinitivo, -ado un participio pasado masculino singular, etc.). Muchos esquemas de procesamiento de textos, aplicados a lenguas flexivas europeas, plantean un etiquetado automático previo a la lematización, de manera que al lematizar se cuente con la información de la categoría gramatical de las palabras. Sin embargo, la atribución de etiquetas correctas depende en general de una lematización implícita basada en un análisis de sufijos y prefijos, lo que permite una primera predicción que se corrige, en una segunda etapa, en función del contexto immediato de la palabra analizada (Brill). Esta manera de proceder presenta algunos problemas: (i) requiere de un corpus manualmente etiquetado de gran dimensión para derivar reglas de etiquetado automático adecuadas, (ii) no aprovecha la existencia de paradigmas de conjugación o derivación, (iii) sólo considera raíces libres.

En el presente trabajo, se propone un sistema de lematización automático que permite resolver estos problemas y puede utilizarse como una primera fase para apoyar el etiquetado automático. El sistema utiliza un mecanismo no supervisado para determinar los paradigmas morfológicos más relevantes analizando el léxico del corpus procesado.

Planteamiento del problema

Para simplificar, se considera que las palabras están formadas por combinaciones simples lexema+morfema o raiz+sufijo, lo que omite la posibilidad de irregularidades y de múltiples morfemas. Así, la palabra vendidas se analizará como vend+idas y no como vend+id+as. En estas condiciones, el problema de la lematización (o stemming) puede reducirse a encontrar un conjunto de raíces y sufijos que explique las palabras del texto como concatenaciones de una raiz y un sufijo.

Con este modelo lingüístico elemental, el único criterio de validación es la productividad de las raíces y sufijos propuestos, es decir, la cantidad de palabras en las cuales aparecen. Mientras más productividad, mejor. Se debe encontrar por lo tanto el conjunto de raíces y sufijos mínimo que permita generar las palabras del texto. Para este propósito no se consideran las repeticiones de palabras, ya que sólo interesa su forma y no su ubicación. El análisis se limita de esta manera al léxico del corpus procesado, privilegiando el eje paradigamático frente al eje sintagmático. Si bien es cierto que en presencia de ambigüedad el entorno sintagmático puede aportar elementos de decisión importantes, estos casos son muy poco frecuentes como para alterar significativamente los resultados buscados.

En resumen, el problema se puede plantear de la siguiente manera: dado un léxico conocido L, encontrar un conjunto de raíces R y un conjunto de sufijos S de mínima cardinalidad tal que L esté incluido en la concatenación de R y S.

Solución aproximada

El planteamiento abstracto del problema enunciado en la sección anterior no permite definir directamente un algoritmo eficiente que lo resuelva. Es necesario considerar otros aspectos más específicos del problema concreto de lematizacíon. Una observación importante es que los sufijos tienen una mucho mayor recurrencia que las raíces, dado que por definición los morfemas pertenecen a clases cerradas muy acotadas mientras que los lexemas reflejan la diversidad conceptual del vocabulario. Esto sugiere que conviene focalizar el análisis en los sufijos.

Básicamente el mecanismo no supervisado consiste en:
 

  • construir una red asociativa (grafo dirigido)  entre terminaciones basada en la coocurrencia de raices.
  • aplicar heurísticas de clustering sobre la red asociativa de terminaciones (la fuerza asociativa entre dos terminaciones depende de la cantidad de raíces que comparten ambas terminaciones).
  • se obtienen grupos de terminaciones fuertemente conexos que corresponden a paradigmas de conjugación o derivación.
  • las palabras se lematizan ubicando cuál es el grupo más probable según un criterio de maximización de terminaciones posibles en el grupo para la raiz considerada (en este caso el lema es la raiz).
  • En una segunda etapa, a cada terminación de cada grupo interesante identificado se le puede asociar una categoría gramatical (ej ar => verbo infinitivo, ado => participio pasado masculino singular, etc.) para realizar la asignación inicial de un etiquetado automático.