Acquisition et évaluation sur corpus de propriétés de sous-catégorisation syntaxique

Didier Bourigault*, Cécile Frérot**

* CLLE-ERSS
CNRS et Université Toulouse Le Mirail
5, allées Antonio-Machado
F-31058 Toulouse cedex 9

** Université Stendhal Grenoble 3
Domaine universitaire BP 25
F-38040 Grenoble cedex 9

Nous présentons une expérience d’utilisation d’informations de sous-catégorisation par un analyseur syntaxique pour la résolution d’ambiguïtés de rattachement prépositionnel. Le lexique de sous-catégorisation est constitué de probabilités associées à des couples (mot, préposition). Il a été construit automatiquement à partir d’un corpus de 200 millions de mots. Pour évaluer ce lexique, nous utilisons quatre corpus de test de genres variés. Nous testons plusieurs stratégies de désambiguïsation, et montrons qu’une stratégie mixte, utilisant à la fois des probabilités de sous-catégorisation spécifiques acquises à partir du corpus en cours de traitement et les probabilités de sous-catégorisation génériques donne les meilleurs résultats : les performances en précision de l’analyseur sur la tâche de désambiguïsation des rattachements prépositionnels varient selon les corpus de 79,4% à 87,2%.