Évaluer et améliorer une ressource distributionnelle : protocole d’annotation de liens sémantiques en contexte

Clémentine Adam*, Cécile Fabre* et Philippe Muller**
*CLLE-ERSS; 5 allées Antonio Machado; F-31058 Toulouse; France; prenom.nom@univ-tlse2.fr
**IRIT; 118 route de Narbonne; F-31500 Toulouse; France
Résumé
L’application de méthodes d’analyse distributionnelle pour calculer des liens de proximité sémantique entre les mots est devenue courante en TAL. Toutefois, il reste encore beaucoup à faire pour mieux comprendre la nature de la proximité sémantique qui est calculée par ces méthodes. Cet article est consacré à la question de l’évaluation d’une ressource distributionnelle, et de son amélioration ; en effet, nous envisageons la mise en place d’une procédure d’évaluation comme une première étape vers la caractérisation de la ressource et vers son ajustement, c’est-à-dire la réduction du bruit en faveur de paires de voisins distributionnels exhibant une relation sémantique pertinente. Nous proposons un protocole d’annotation en contexte des voisins distributionnels, qui nous permet de constituer un ensemble fiable de données de référence (couples de voisins jugés pertinents ou non par les annotateurs). Les données produites sont analysées, puis exploitées pour entraîner un système de catégorisation automatique des liens de voisinage distributionnel, qui prend en compte une large gamme d’indices et permet un filtrage efficace de la ressource considérée.
Paru dans
Document
Rank
3