| Description |
Flemm est un programme qui lemmatise (i.e. retrouve la forme non fléchie conventionnelle de) les mots étiquetés fléchis donnés en entrée (sous forme de texte ou de liste). Flemm prend en entrée un texte français étiqueté (pour l’instant par Brill ou Treetageer) et pour chacun des couples /mot,étiquette/ il (1) vérifie et au besoin corrige l’étiquette fournie par l’étiqueteur, (2) calcule le lemme du mot, et (3) en déduit toutes les informations flexionnelles du mot lemmatisé calculables hors contexte (modèle flexionnel, genre, nombre, temps, etc.).
Flemm est un système à base de règles (une centaine) qui n’utilise qu’un lexique de taille réduite sous la forme de listes d’exceptions (environ 3000 formes). De ce fait, le programme est capable d’analyser les mots inconnus, nouveaux, inventés ou mal orthographiés, en leur associant le schéma régulier correspondant à leur terminaison et étiquette. |