Identification des cognats et alignement bi-textuel : une étude empirique

Auteurs
Kraif, Olivier
Résumé
Nous nous intéressons ici aux méthodes d’alignement automatique destinées à produire des corpus bi-textuels, utiles au traducteur, au terminologue ou au linguistique. Certaines techniques ont obtenu des résultats probants en s’appuyant sur la détermination empirique des " cognats " (de l’anglais " cognate "), des mots qui se traduisent l’un par l’autre et qui présentent une ressemblance graphique. Or les cognats sont généralement captés au moyen d’une approximation abrupte, de nature opératoire : on considère tous les 4-grammes (mots possédants 4 lettres en commun) comme cognats potentiels. Aucune étude n’a été faite, à notre connaissance, à propos de la validité de cette approximation. Afin d’en démontrer les possibilités et les limites, nous avons cherché à déterminer empiriquement la qualité de cette simplification, en termes de bruit et de silence (ou de manière complémentaire, de précision et de rappel). Nous avons ensuite essayé de développer un filtrage plus efficace, basé sur l’utilisation des sous-chaînes maximales. Enfin, nous avons corrélé les améliorations du filtrage avec les résultats de l’alignement, en nous basant sur une méthode générale développée par nous : nous avons pu constater un net progrès en terme de rappel et de précision de l’alignement.
Mots-clés
cognat
distribution lexicale
corpus
corpus bi-textuel
alignement
information
information mutuelle
correspondance lexicale
Document