Vers un apprentissage en TALN dépendant du type de Texte

Auteurs
Illouz, Gabriel
Résumé
Dans cet article, nous présentons la problématique de l’hétérogénéité des données textuelles et la possibilité d’utiliser cette dernière pour améliorer les traitements automatiques du langage naturel. Cette hypothèse a été abordée dans (Biber, 1993) et a donné lieu à une première vérification empirique dans (Sekine, 1998). Cette vérification a pour limite de ne s’adapter qu’à des textes dont le type est explicitement marqué. Dans le cadre de textes tout venant, nous proposons une méthode pour induire des types de textes, apprendre des traitements spécifiques à ces types puis, de façon itérative, en améliorer les performances.
Mots-clés
corpus
typologie textuelle
étiquetage
classification