Points d’ancrage pour l’extraction lexicale bilingue à partir de petits corpus comparables spécialisés

Sous-titre
Éléments de confiance pour la caractérisation des termes
Emmanuel Prochasson* et Emmanuel Morin*
*Université de Nantes, LINA - UMR CNRS 6241; 2, rue de la Houssinière, BP 92208; F-44 322 Nantes cedex 3; emmanuel.prochasson,emmanuel.morin@univ-nantes.fr
Résumé
Les recherches en extraction lexicale bilingue à partir de corpus comparables ont abouti à des résultats prometteurs pour les corpus très volumineux en utilisant une méthode d’alignement dite directe. Le changement d’échelle induit par des corpus d’une taille plus modeste conduit à l’obtention de résultats plus contrastés. Nous proposons d’introduire la notion de points d’ancrage sur laquelle nous faisons reposer une partie de l’alignement pour augmenter significativement les résultats de l’approche directe sur de tels corpus. Nous avons choisi de nous concentrer sur les translittérations et les mots savants comme points d’ancrage, sur un petit corpus comparable spécialisé. Nous montrons comment nous les avons exploités, ainsi que leur influence sur les candidats à la traduction.
Paru dans
Document
Rank
11