Accueil du site Accueil du site Adhésion Contact Plan du site

Sélection de caractéristiques pour les champs aléatoires conditionnels par pénalisation L1

Nataliya Sokolovska*, Olivier Cappé*, François Yvon**

* Telecom ParisTech et LTCI/CNRS
sokolovska,cappe@telecom-paristech.fr

** Université Paris Sud 11 et LIMSI/CNRS
yvon@limsi.fr


Les modèles probabilistes discriminants permettent de manipuler des représentations linguistiques riches, sous la forme de vecteurs de caractéristiques de très grande taille. Travailler en grande dimension pose des problèmes, en particulier computationnels, qui sont exacerbés dans le cadre de modèles de séquences tels que les champs aléatoires conditionnels (CRF). Sélectionner automatiquement les caractéristiques pertinentes s’avère alors intéressant et donne lieu à des modèles plus compacts et plus faciles à utiliser. Dans cette étude, nous proposons un algorithme d’estimation pour les CRF qui réalise une telle sélection, par le truchement d’une pénalisation L1 . Nous présentons également les résultats d’expériences menées sur des tâches de traitement des langues (le chunking et la détection des entités nommées). Nous proposons enfin des pistes pour améliorer l’efficacité computationelle de cette technique.


Télécharger:
Fichier PDF
Nataliya Sokolovska, Olivier Cappé, François Yvon
476.1 ko

TAL Volume 50 2009 . 3. Apprentissage automatique pour le TAL

Date de dernière mise à jour : 29 septembre 2010, auteur : Rédacteurs en chef.