Stratégies discriminantes pour intégrer la reconnaissance des mots composés dans un analyseur syntaxique en constituants

Matthieu Constant*, Anthony Sigogne* et Patrick Watrin**
*Université Paris-Est; LIGM, CNRS; [mconstan,sigogne]@univ-mlv.fr
**Knowbel Technologies; patrick.watrin@knowbel.com
Résumé
Nous proposons deux stratégies discriminantes d’intégration des mots composés dans un processus d’analyse syntaxique en constituants : (i) présegmentation lexicale avant analyse, (ii) postsegmentation lexicale après analyse au moyen d’un réordonnanceur. Le segmenteur de l’approche (i) se fonde sur les champs aléatoires markoviens. Le réordonnanceur de l’approche (ii) repose sur un modèle de maximum d’entropie. Tous ces modèles intègrent des traits dédiés aux mots composés, dont certains sont calculés à partir de ressources lexicales externes. Nous montrons que l’approche par présegmentation atteint des performances dépassant l’état de l’art, alors que celle par postsegmentation est un peu en dessous de nos espérances. Les différentes expériences menées ouvrent de nombreuses pistes de recherche.
Paru dans
Document
Rank
2