La ressource ANNODIS, un corpus enrichi d’annotations discursives

Marie-Paule Péry-Woodley^*, Stergos D. Afantenos^**, Lydia-Mai Ho-Dac^* et Nicholas Asher^**

^*CLLE-ERSS (UMR 5263 et Université de Toulouse); Université Toulouse 2-Le Mirail; 5, allées Antonio-Machado - 31058 Toulouse Cedex 9, France; pery@univ-tlse2.fr; hodac@univ-tlse2.fr

^**IRIT (UMR 5505 et Université de Toulouse); Université Paul Sabatier; 118, route de Narbonne - 31062 Toulouse Cedex 9, France; stergos.afantenos@irit.fr; nicholas.asher@irit.fr

Résumé

Cet article décrit la ressource ANNODIS, issue d’un projet ﬁnancé par l’ANR, corpus de français écrit enrichi à différents niveaux, dont un niveau d’annotation manuelle de structures discursives. Une originalité de la ressource est de proposer un corpus diversiﬁé (plusieurs types de textes sont représentés) et deux annotations fondées sur des approches distinctes de la structuration des discours. La description de la ressource - objets annotés, textes composant le corpus - s’accompagne de la présentation des ancrages théoriques sous-jacents aux modèles d’annotation, et des choix méthodologiques qui ont guidé les diverses phases de préparation et d’annotation du corpus. Nous formulons les enjeux d’une telle ressource pour la linguistique et le TAL, et présentons les premières exploitations.

Paru dans

Ressources linguistiques libres

Document

TAL_52_3_3.pdf

Rank