PARADOCS : l’entremetteur de documents parallèles indépendant de la langue

Alexandre Patry*,** et Philippe Langlais**
*KeaText 845; Boulevard Décarie bureau 202; Saint-Laurent; Canada H4L 3L7; alexandre.patry@keatext.com
**Département d’Informatique et de Recherche Opérationnelle; Université de Montréal; CP. 6128 Succ. Centre-Ville; Montréal; Canada H3C 3J7; [patryale,felipe]@iro.umontreal.ca
Résumé
Les corpus parallèles sont la pierre angulaire de plusieurs technologies de traduction automatique et des efforts conséquents sont régulièrement portés afin d’en réunir de nouveaux. L’expérience montre que la stratégie visant à réduire l’intervention manuelle dans cet exercice n’est jamais la même d’un corpus à l’autre. Ce constat nous a amené à développer PARADOCS, un entremetteur de documents parallèles qui utilise les entités numériques des documents afin de les apparier. Un classificateur est entraîné à décider des documents parallèles et un moteur de recherche d’information est utilisé afin de réduire l’espace de recherche des paires de documents parallèles. Nous montrons l’efficacité de PARADOCS sur de nombreuses tâches avec de nombreuses paires de langues.
Document
Rank
2