Fouille de données séquentielles pour l’extraction d’information dans les textes

* Université de Caen Basse Normandie
GREYC, CNRS, UMR6072
F-14032, France
thierry.charnois,bruno.cremilleux@info.unicaen.fr

** Université de Lyon, CNRS, Université Lyon 1
LIRIS, UMR5205
F-69622, France
marc.plantevit@liris.cnrs.fr

*** Université de Lyon, CNRS, INSA-Lyon
LIRIS, UMR5205
F-69621, France _christophe.rigotti@insa-lyon.fr

Cet article montre l’intérêt d’utiliser les motifs issus des méthodes de fouille de données dans le domaine du TAL appliqué à la biologie médicale et génétique, et plus particulièrement dans les tâches d’extraction d’information. Nous proposons une approche pour apprendre les patrons linguistiques par une méthode de fouille de données fondée sur les motifs séquentiels et sur une fouille dite récursive des motifs eux-mêmes. Une originalité de notre approche est de s’affranchir de l’analyse syntaxique tout en permettant de produire des résultats symboliques, intelligibles pour l’utilisateur, a contrario des méthodes numériques qui restent difficilement interprétables. Elle ne nécessite pas de ressources linguistiques autres que le corpus d’apprentissage. Pour la reconnaissance d’entités biologiques nommées, nous proposons une méthode fondée sur un nouveau type de motifs intégrant une séquence et son contexte.