Analyse distributionnelle appliquée aux textes de spécialité - Réduction de la dispersion des données par abstraction des contextes

Amandine Périnet^* et Thierry Hamon^**

^*Université Paris 13, Sorbonne Paris Cité, France; amandine.perinet@edu.univ-paris13.fr

^**LIMSI-CNRS, BP133, Orsay, France; hamon@limsi.fr

Résumé

Les modèles vectoriels utilisés pour l’analyse distributionnelle souffrent de la dispersion des données dans la matrice des contextes et du nombre important de dimensions de cette matrice. Ces limitations rendent difficile leur application aux corpus de spécialité, et les termes ne sont habituellement pas pris en compte alors qu’ils sont essentiels. Dans cet article, nous proposons une adaptation de l’analyse distributionnelle afin de pouvoir l’utiliser efficacement sur des textes de spécialité. L’approche proposée réalise une abstraction des contextes distributionnels pour réduire la dispersion des données et ainsi améliorer la qualité des regroupements tout en y incluant les termes. Nous avons évalué notre approche sur deux corpus médicaux. L’analyse des résultats montre que tout en permettant la prise en compte des termes dans l’analyse distributionnelle, l’abstraction des contextes, notamment grâce à l’inclusion lexicale, permet d’obtenir des regroupements sémantiques de meilleure qualité et plus homogènes.

Paru dans

Sémantique distributionnelle

Document

TAL_56_2_3.pdf

Rank