Comparabilité de corpus et fouille terminologique multilingue

Emmanuel Morin - Béatrice Daille*
*Université de Nantes, LINA - FRE CNRS 2729; 2, rue de la Houssinière, BP 92208; F-44322 Nantes cedex 03; emmanuel.morin,beatrice.daille@univ-nantes.fr
Résumé
Les principaux travaux en fouille textuelle privilégient communément la taille du corpus sur sa qualité. Ainsi dans le cadre de l’alignement lexical à partir de corpus comparables, les meilleurs résultats sont obtenus pour des corpus de grande taille (plusieurs millions de mots). Pour les domaines de spécialité, et pour de nombreuses paires de langues, il n’est pas possible de disposer de corpus textuels aussi volumineux. Dans le cadre de ce travail, nous soutenons l’hypothèse que la qualité des données textuelles peut non seulement suppléer à leur quantité mais garantit aussi celle des ressources lexicales extraites. En particulier, nous montrons l’intérêt de prendre en compte le type du discours lors de la constitution du corpus comparable pour obtenir des listes terminologiques de qualité.
Paru dans
Document
Rank
5