Composition filtrée et marqueurs de règles de réécriture pour une distance d’édition flexible

Sous-titre
Application à la correction des mots hors vocabulaire
Richard Beaufort*
*Centre de traitement automatique du langage;Université de Louvain;Place Blaise Pascal 1;1348 Louvain-la-Neuve;Belgique; richard.beaufort@uclouvain.be
Résumé
Nous présentons une implémentation flexible et originale de la distance d’édition : la composition filtrée, un type particulier de composition de deux machines à états finis au travers d’un filtre qui modélise l’ensemble des opérations d’édition valides. Le filtre est un transducteur pondéré ou une cascade de transducteurs pondérés. Il est obtenu par compilation de règles de réécriture qui profitent d’un nouveau concept défini dans notre bibliothèque de machines à états finis : le marqueur de règles, un symbole qui n’appartient pas à l’alphabet utilisé, mais est inséré dans une règle de réécriture afin d’identifier un phénomène et d’en suivre l’évolution. Les marqueurs désambiguïsent et facilitent l’expression de conditions et de contraintes. La méthode est illustrée dans le cadre de la correction des mots hors vocabulaire.
Paru dans