Un corpus arboré pour le français : le French Treebank

Anne Abeillé*, Lionel Clément** and Loïc Liégeois***
*Laboratoire de Linguistique Formelle (LLF), Université Paris Diderot
**LaBRI , Université Bordeaux
***CLILLAC-ARP et LLF, Université Paris Diderot
Résumé
Nous présentons un bilan du Corpus arboré du français, ou French Treebank (FTB)
(1996-2016), qui est une ressource lexicale et syntaxique unique en son genre, richement anno-
tée (et validée manuellement) pour les linguistes, et pour le TAL, avec environ 300 utilisateurs
dans le monde. Après avoir exposé les principes de construction, et les principaux choix d’anno-
tation, nous présentons l’état final du corpus, ses différents formats, et une première évaluation.
Nous présentons aussi quelques ressources dérivées et des exemples d’interrogation.
Résumé (en anglais)
We present a review of the French Treebank (FTB) (1996-2016), a lexical and syn-
tactic resource with rich annotation and manual validation, which is usable by linguists and for
NLP and has about 300 users in the world. We summarize the building principles and the main
annotation choices, and describe the final version, the different formats and a first evaluation.
We also present some derived resources and some query examples.
Paru dans