Extraction automatique de correspondances lexicales : évaluation d’indices et d’algorithmes

Auteurs
Kraif, Olivier
Résumé
Les bi-textes sont des corpus bilingues parallèles, généralement segmentés et alignés au niveau des phrases. Une des applications les plus directes de ces corpus consiste à en extraire automatiquement des correspondances lexicales, fournissant une information utile aux traducteurs, aux lexicographes comme aux terminologues. Comme pour l’alignement, des méthodes statistiques ont donné de bons résultats dans ce domaine. Nous pensons qu’une exploitation judicieuse d’indices statistiques adaptés et d’algorithmes de conception simple permet d’obtenir des correspondances fiables. Après avoir présenté les indices classiques, auxquels nous essayons d’apporter des améliorations, nous proposons dans cette article une étude empirique destinée à en montrer les potentialités.
Mots-clés
extraction
extraction automatique de correspondances lexicales
alignement
alignement lexical
lexicographie
relation de traduction
Document