De la constitution d’un corpus arboré à l’analyse syntaxique du serbe

Aleksandra Miletic^*, Cécile Fabre^* et Dejan Stosic^*

^*CLLE, Université de Toulouse, CNRS, UT2J, France

Résumé

Cet article retrace une expérience de constitution d’un corpus arboré pour le serbe, conçu dans le but de doter cette langue des instruments nécessaires à l’analyse syntaxique et, plus généralement, de favoriser des recherches plus systématiques aussi bien en TAL (traitement automatique des langues) qu’en linguistique serbe. Au-delà de la description des résultats de ce projet, nous présentons une méthode de confection d’un corpus arboré qui vise à optimiser les ressources, par définition rares, dont on dispose dans le cas d’une langue peu dotée, qu’il s’agisse de moyens matériels (corpus et outils) ou humains. Nous montrons comment tirer au mieux parti de l’existant pour faciliter le travail des annotateurs humains et accélérer l’enri- chissement du corpus, tout en garantissant la validité de l’annotation produite. Cette méthode, basée sur des principes transposables à d’autres langues, a vocation à faciliter la création des corpus arborés pour les langues sous-dotées en général.

Paru dans

Traitement automatique des langues peu dotées

Document

TAL_59_3_1.pdf

Rank