Fouille de données séquentielles pour l’extraction d’information dans les textes

Thierry Charnois^*, Marc Plantevit^**, Christophe Rigotti^*** et Bruno Crémilleux^*

^*Université de Caen Basse Normandie; GREYC, CNRS, UMR6072; F-14032, France; thierry.charnois,bruno.cremilleux@info.unicaen.fr

^**Université de Lyon, CNRS, Université Lyon 1; LIRIS, UMR5205; F-69622, France; marc.plantevit@liris.cnrs.fr

^***Université de Lyon, CNRS, INSA-Lyon; LIRIS, UMR5205; F-69621, France; _christophe.rigotti@insa-lyon.fr

Résumé

L’idée que nous défendons dans cet article est qu’il est possible d’obtenir des concepts sémantiques signiﬁcatifs par des méthodes de classiﬁcation automatique. Pour ce faire, nous commençons par proposer des mesures permettant de quantiﬁer les relations sémantiques entre mots. Ensuite, nous utilisons les méthodes de classiﬁcation non supervisée pour construire les concepts d’une manière automatique. Nous testons alors deux méthodes de partitionnement : l’algorithme des K-means et les cartes de Kohonen. Ensuite, nous utilisons le réseau bayésien AutoClass conçu pour la classiﬁcation non supervisée. Pour grouper les mots du vocabulaire en différentes classes, nous avons testé trois représentations vectorielles des mots. La première est une représentation contextuelle simple. La deuxième associe à chaque mot un vecteur de valeurs représentant sa similarité avec tous les mots du lexique. Enﬁn, la troisième représentation est une combinaison des deux premières.

Paru dans

Apprentissage automatique pour le TAL

Document

TAL_50_3_2.pdf

Rank