Variations langagières et annotation morphosyntaxique du latin classique

Céline Poudat* and Dominique Longrée**
*« Bases, corpus, langage » (BCL) - UMR6039 - CNRS - Université de Nice; Faculté des lettres; 98, bd. Édouard-Herriot,; BP 3209 ; 06204 Nice CEDEX 3; celine.poudat@unice.fr
**Laboratoire d’analyse statistique des langues anciennes (LASLA); Université de Liège - Bâtiment A4; Quai Roosevelt 1B; B 4000 Liège; dominique.longree@ulg.ac.be
Résumé
Le présent article évalue les performances de trois étiqueteurs morphosyntaxiques entraînables (MBT, TnT et TreeTagger) pour l’annotation morphosyntaxique de textes latins classiques. Pour ce faire, les textes-tests et les corpus d’entraînement ont été choisis au sein de la banque de données du Laboratoire d’analyse statistique des langues anciennes (LASLA) de manière à mettre les étiqueteurs à l’épreuve de variations stylistiques, diachroniques, génériques ou discursive. Cette recherche a permis non seulement de préciser les divers taux de réussite de chacun des étiqueteurs selon les corpus retenus, mais aussi de montrer que ceux-ci constituent de véritables instruments heuristiques pouvant permettre d’améliorer de manière significative la description des corpus.