MULTITAG, une ressource linguistique produit du paradigme d’évaluation

Auteurs
Paroubek, Patrick
Rajman, Martin
Résumé
Dans cet article, nous montrons comment le paradigme d’évaluation peut servir pour produire de façon plus économique des ressources linguistiques validées de grande qualité. Tous d’abord nous présentons le paradigme d’évaluation et rappelons les points essentiels de son histoire pour le traitement automatique des langues, depuis les premières applications dans le cadre des campagnes d’évaluation américaines organisées par le NIST et le DARPA jusqu’aux derniers efforts européens en la matière. Nous présentons ensuite le principe qui permet de produire à coût réduit des ressources linguistiques validées et de grande qualité à partir des données qui sont produites lorsque l’on applique le paradigme d’évaluation. Ce principe trouve ses origines dans les expériences (Recognizer Output Voting Error Recognition) qui ont été effectuées pendant les campagnes d’évaluation américaine pour la reconnaissance automatique de la parole. Il consiste à combiner les données produites par les systèmes à l’aide d’une simple stratégie de vote pour diminuer le nombre d’erreurs. Nous faisons alors un lien avec les stratégies d’apprentissages automatiques fondées sur la combinaison de systèmes de même nature. Notre propos est illustré par la description de la production du corpus MULTITAG (projet du programme Ingénierie des Langues des département SPI et SHS du CNRS) à partir des données qui avaient été annotées lors de la campagne d’évaluation GRACE, correspondant à un corpus d’environ 1 million de mots annotés avec un jeu d’étiquettes morpho-syntaxiques de grain très fin dérivé de celui qui a été défini dans les projets EAGLES et MULTEXT. Nous présentons le corpus MULTITAG et la procédure qui a été suivie pour sa production et sa validation. Nous concluons en présentant le gain obtenu par rapport à une méthode classique de validation de marquage morho-syntaxique.
Mots-clés
paradigme d’évaluation
campagne d’évaluation
système d’annotation
corpus