Modèles discriminants pour l’alignement mot à mot

Alexandre Allauzen* and Guillaume Wisniewski*
*Univ Paris-Sud 11, Orsay, F-91405; LIMSI-CNRS, B.P. 133; 91403 Orsay cedex, France; allauzen,wisniews@limsi.fr
Résumé
Un alignement mot à mot entre une phrase et sa traduction consiste à extraire des relations d’appariement entre les mots de la phrase source et les mots de sa traduction. Aujourd’hui le principal système d’alignement état de l’art, Giza++, repose sur une combinaison des modèles génératifs IBM. Bien que Giza++ soit utilisé par la plupart des systèmes statistiques de traduction automatique, la qualité des alignements qu’il prédit n’est pas satisfaisante. Nous proposons d’aborder ce problème avec des modèles discriminants (maximum d’entropie et champs conditionnels aléatoires) afin d’intégrer des caractéristiques plus riches et robustes. Les différents modèles sont évalués en termes de taux d’erreur d’alignement (AER) sur deux paires de langues (français/anglais et arabe/anglais). Nos résultats montrent le gain et le potentiel des modèles discriminants pour la tâche d’alignement