Apprentissage discriminant pour les Grammaires à Substitution d’Arbres

Auteurs
Rozenknop, Antoine
Chappelier, Jean-Cédric
Rajman, Martin
Résumé
Les grammaires stochastiques standards utilisent des modèles probabilistes de nature générative, fondés sur des probabilités de récriture conditionnées par le symbole récrit. Les expériences montrent qu’elles tendent ainsi par nature à pénaliser les dérivations les plus longues pour une même entrée, ce qui n’est pas forcément un comportement souhaitable, ni en analyse syntaxique, ni en reconnaissance de la parole. Dans cet article, nous proposons une approche probabiliste non-générative du modèle STSG (grammaire stochastique à substitution d’arbres), selon laquelle les probabilités sont conditionnées par les feuilles des arbres syntaxiques plutôt que par leur racine, et qui par nature fait appel à un apprentissage discriminant. Plusieurs expériences sur ce modèle sont présentées.
Mots-clés
grammaire
grammaire à substitution d’arbres
grammaire stochastique à substitution d’arbres
corpus
corpus d’apprentissage
grammaire hors-contexte
Document