Évaluation des annotations : ses principes et ses pièges

Yann Mathet* and Antoine Widlöcher**
*Université de Caen Normandie, GREYC UMR6072; yann.mathet@unicaen.fr
**Université de Caen Normandie, GREYC UMR6072; antoine.widlocher@unicaen.fr
Résumé
Beaucoup de données sont produites par le TAL (systèmes automatiques) et pour le TAL (corpus de référence, pour la linguistique computationnelle ou pour l’apprentissage), et leur mise à disposition ne devrait se faire que dans la mesure où leur consistance est établie. Si l’on peut se réjouir de l’effort grandissant qui est fait en ce sens depuis une vingtaine d’années, par exemple par l’utilisation de plus en plus fréquente de mesures d’accord inter-annotateurs telles que le coefficient kappa, on constate cependant qu’il ne s’accompagne pas toujours d’une connaissance suffisante des principes sous-jacents à l’évaluation, ni de la rigueur nécessaire à l’application de ces derniers. L’objectif de cet article est d’une part de présenter et de questionner les concepts et les principes fondamentaux du domaine (faut-il par exemple « corriger par la chance » les mesures d’accord, et si oui, comment ?), et d’illustrer par des exemples concrets et chiffrés les conséquences d’une pratique approximative de l’évaluation.
Résumé (en anglais)
A lot of data is produced by NLP (automatic systems) and for NLP (reference corpus, for computational linguistics or for machine learning) and should be publicly released only if their consistency is proven. While the growing effort that has been made in this direction over the past two decades is encouraging, for example through the increasing use of inter-annotating agreement measures such as kappa, it is not always accompanied by sufficient knowledge of the principles underlying evaluation or the rigor required for their application. The aim of this paper is to present and question the basic concepts and principles of the domain (e.g., shall we use "chance correction" in agreement measures, and if so, how?), and to illustrate with concrete and quantified examples the consequences of an approximate practice of evaluation.
Paru dans