Accueil du site Accueil du site Adhésion Contact Plan du site

Stratégies pour l’étiquetage et l’analyse syntaxique statistique de phénomènes difficiles en français : études de cas avec Talismane

Assaf Urieli

CLLE-ERSS, CNRS, université de Toulouse

Les outils statistiques robustes en TAL, tels que les étiqueteurs morphosyntaxiques et les analyseurs syntaxiques, utilisent souvent des descripteurs ’’pauvres’’, qui peuvent être appliqués facilement à n’importe quelle langue, mais ne prennent pas en compte les particularités de la langue. Dans cette étude, nous cherchons à améliorer l’analyse de deux phénomènes en français en injectant des connaissances plus riches : l’étiquetage morphosyntaxique du mot ’’que’’ et l’analyse syntaxique de la coordination. Nous comparons plusieurs techniques : la transformation automatique du corpus vers d’autres normes d’annotation avant l’entraînement, l’ajout de descripteurs ciblés et riches lors de l’entraînement, et l’ajout de règles symboliques qui contournent le modèle statistique lors de l’analyse. Nous atteignons une réduction du taux d’erreur de 55 % pour l’étiquetage de ’’que’’, et de 37 % pour les structures coordonnées.


Télécharger:
Strategies-pour-l-etiquetage PDF
Assaf Urieli
266.9 ko


Date de dernière mise à jour : 11 février 2016, auteur : Rédacteurs en chef.