Acquisition de connaissances lexicales à partir de corpus : la sous-catégorisation verbale en français

Cédric Messiant*, Kata Gábor** and Thierry Poibeau***
*Laboratoire d’Informatique de Paris-Nord; UMR 7030 CNRS; Université Paris 13; 99, avenue Jean-Baptiste Clément; F-93430 Villetaneuse, France; cedric.messiant@lipn.univ-paris13.fr
**Department of Language Technology; Research Institute for Linguistics; Hungarian Academy of Sciences; Budapest, Hongrie; gkata@nytud.hu
***Laboratoire LaTTiCe; UMR 8094 CNRS; École Normale Supérieure; 1, rue Maurice Arnoux; F-92120 Montrouge, France; thierry.poibeau@ens.fr
Résumé
Nous décrivons dans cet article une méthode permettant l’acquisition d’un lexique syntaxique des verbes du français à partir de l’analyse automatique de gros corpus. Nous évaluons cette méthode par rapport à des ressources existantes et nous montrons que notre système produit automatiquement de nouvelles données qui peuvent compléter les lexiques existants. Nous montrons enfin comment la syntaxe peut aider à faire émerger des classes lexico-sémantiques, dans la lignée des travaux de Levin (1993).
Paru dans