Les corpus arborés avant et après le numérique

Sylvain Kahane* et Nicolas Mazziotta**
*Modyco, Université Paris Nanterre & CNRS
**U.R. Traverses, Université de Liège
Résumé
Nous montrons comment, du XVIIIe siècle à nos jours, l’annotation syntaxique de cor- pus a évolué de l’analyse exhaustive de phrases isolées à celle de listes d’exemples, puis à celle de textes entiers. Nous étudions l’évolution des visées de ces corpus arborés entre motivations pédagogique, théorique et ressources pour le TAL. Nous présentons quelques ouvrages clés, souvent peu connus de la communauté TAL comme de celle des linguistes : Buffier (1709), Beauzée (1765), Gaultier (1817), Clark (1847), Jespersen (1937) et Tesnière (1959). Nous concluons sur les liens actuels entre corpus arborés et TAL.
Résumé (en anglais)
This paper explains how, from the 18th century to the present day, the syntactic annotation has evolved from the comprehensive analysis of isolated sentences to lists of examples, then to complete texts. We study the evolution of the aims of these treebanks between pedagogical and theoretical motivations and resources for NLP. We introduce some key works, often little known by the NLP community as well as by linguists: Buffier (1709), Beauzée (1765), Gaultier (1817), Clark (1847), Jespersen (1937), Tesnière (1959). We conclude on the current links between treebanks and NLP.
Document
Rank
3