Extraction automatique de motifs syntaxiques

Auteurs
Ganascia, Jean-Gabriel
Résumé
Cet article présente un nouvel algorithme de détection de motifs syntaxiques récurrents dans les textes écrits en langage naturel. Il décrit d’abord l’algorithme d’extraction fondé sur un modèle d’édition généralisé à des arbres stratifiés ordonnés (ASO). Il décrit ensuite les expérimentations qui valident l’approche préconisée sur des textes de la littérature française classique des XVIIIe et XIXe siècle. Une sous-partie est consacrée à l’évaluation empirique de la complexité algorithmique. La dernière sous-partie donnera quelques exemples de motifs récurrents typiques d’un auteur du XVIIIe siècle, Madame de Lafayette.
Mots-clés
langage
langage naturel
arbre
appariement
graphe
graphe de similarité
syntaxe
Document