Approches catégoriques et non catégoriques en linguistique des corpus spécialisés, application à un système de filtrage d?information.

Balvet Antonio

Équipe: UMR MoDyCo

Courriel: antonio.balvet@u-paris10.fr

Contenu

Mots-clés: linguistique de corpus, traitement automatique des langues, filtrage d’information, statistique linguistique

Keywords: corpus linguistics, information retrieval, information filtering, natural language processing

Résumé

Cette thèse s ?inscrit dans le cadre des études linguistiques sur corpus, centrées sur les productions effectives, dans des domaines de spécialité. La thèse reprend les présupposés théoriques et les méthodes des approches guidées par les observables linguistiques, afin d ?extraire des corpus étudiés des unités lexicales complexes fortement corrélées à des sous-thèmes clairement identifiés. Ainsi, la thèse aboutit à une description et à un recensement de ces unités lexicales complexes, appelées signatures thématiques, pour un sous-thème du domaine financier : les cessions et acquisitions de sociétés. Le travail d ?analyse des corpus, faisant principalement appel à une approche distributionnelle classique, tente également d ?évaluer l ?apport d ?approches non catégoriques et non logiques (essentiellement des approches statistiques) dans la détection de signatures thématiques. Les signatures identifiées servent de base à un système de filtrage d ?information, déployé en milieu industriel : le système CORAIL, issu d ?un projet de recherches financé par le Ministère de la Recherche et de l ?Industrie.

Abstract

This thesis is set in the framework of corpus linguistic studies, centered on actual utterances, in specialised domains. By building on the theoretical and methodological grounding of data-oriented approaches in linguistics, this thesis aims at identifying and describing complex lexical units which are strongly correlated with well defined sub-topics : topical signatures. One of the achievements of this work is the description of a set of topical signatures for a sub-topic of financial news extracts : corporate financial activities. The approach described in this thesis, building on classical distributional methods, also aims at evaluating non categorical and non logic-centered approaches, such as stochastic ones, in the process of identifying topical signatures. The extracted signatures serve as lexical resources, put to use by a selective information dissemination system : CORAIL. This system is the achievement of an industrial research project, funded by the French Ministry for Research and Industry.

Informations administratives

Jury

Bernard Laks, directeur de thèse
Antoinette Renouf, rapporteur
Christian Fluhr, rapporteur
Benoît Habert, examinateur
Eric Laporte, examinateur
Célestin Sedogbo, examinateur

Université: Université Paris 10 - Nanterre

Discipline: Sciences du langage

Date de soutenance: 11 décembre 2002

Lieu de soutenance: Paris X, salle BO15