Extraction et Impact des connaissances sur les performances des
Systèmes de Recherche d’Information
Hatem Haddad
Equipe : Modélisation et Recherche d'Information Multimédia
Courriel :
Haddad@imag.frPage :
http://www-clips.imag.fr/mrim/User/hatem.haddad/
Contenu
RésuméDans un contexte riche d’information, un système de recherche
d’information doit être capable de trouver les meilleurs résultats
possibles dans un océan d’information. Notre étude s’intéresse aux
connaissances qui peuvent être extraites du contenu textuel des
documents en associant la finesse d’analyse d’une approche linguistique
(extraction et structuration) à la capacité d’une approche statistique
de traiter de gros corpus. L’approche statistique se base sur la fouille
de données textuelles et principalement la technique de règles
d’association. L’approche linguistique se base sur les syntagmes
nominaux que nous considérons comme des entités textuelles plus
susceptibles de représenter l’information contenue dans le texte que les
termes simples. Elle explicite les contraintes linguistiques nécessaires
à l’extraction des syntagmes nominaux et défini les rapports
syntagmatiques entre les composantes d’un syntagme nominal. Ces
relations syntagmatiques sont exploitées pour la structuration des
syntagmes nominaux. Une mesure, appelée ``quantité d’information’’, est
proposée pour évaluer le pouvoir évocateur de chaque syntagme nominal,
filtrer et comparer les syntagmes nominaux. Le modèle proposé démontre
que la combinaison d’une approche statistique et d’une approche
linguistique affine les connaissances extraites et améliore les
performances d’un système de recherche d’information.
AbstractAn information retrieval system is dedicated to find the best possible
results in a rich information context. Our study is interested in the
knowledge which can be extracted from textual documents contents by
associating a linguistic approach to the capacity of a statistical
approach to analyze big corpus. The statistical approach is based on
Text Data Mining, more precisely on the association rule technique. The
linguistic approach is based on noun phrases considered as more adequate
to represent document content than single words. It clarifies the needed
linguistic constraints for the extraction of noun phrases and explicits
the syntagmatic relations between words in noun phrases. These phrasal
relations are exploited to structure noun phrases. A measure, namely
``information quantity’’, is proposed to estimate the suggestive power
of every noun phrase, to filter and compare noun phrases. The proposed
model demonstrates that the combination of a statistical approach and a
linguistic approach refines the extracted knowledge and increases the
performances of an information retrieval system.
Informations administratives
Jury
- M. Claude Chrisment (Univ. P. Sabatier, Toulouse) rapporteur
- M. Jean-Marie Pinon (INSA, Lyon) rapporteur
- M. Jean-Pierre Giraudin (UPMF, Grenoble) examinateur
- M. Éric Gaussier (XRCE, XEROX, Meylan) examinateur
- M. Jean-Pierre Chevallet (UPMF, Grenoble) examinateur
- Mme Marie-France Bruandet (UJF, Grenoble) directeur
Université : Université Joseph-Fourier, Grenoble
Discipline : Informatique
Date de soutenance : 24 septembre 2002
Lieu de soutenance : Salle F309 de l’UFR IMA, Grenoble
Ces renseignement ont été saisis le 13/09/2002 par Hatem Haddad.