Apprentissage et Filtrage Syntaxico-Sémantique de Syntagmes Nominaux Pertinents pour La Recherche Documentaire
Elie Naulleau
Equipe : Laboratoire E.L.I., ENS de Fontenay St Cloud
Courriel :
Elie.Naulleau@free.frPage :
http://semiosys.free.fr/Semio-Sys/archives.htmlCette thèse est téléchargeable à :
http://semiosys.free.fr/Semio-Sys/archives.html
Contenu
Mots-clés : linguistique informatique, analyse syntaxique, désambiguïsation sémantique, extraction de terminologie, filtrage
symbolique d’information, apprentissage symbolique, indexation automatique, recherche documentaire
Keywords :
computationnal linguistics, semantic disambiguation, nominal phrase extraction, symbolic information filtering,
symbolic learning, automatic indexing, information retrieval, IR
RésuméNous proposons un système d’extraction de groupes nominaux qui
s’appuie sur des informations syntaxiques et sémantiques, et qui aide
à la mise à jour de thesaurus ou la création d’index libres.
L’originalité du système tient à la possibilité de faire varier la
forme des groupes nominaux recherchés, relativement à un centre
d’intérêt. Ce dernier est concrétisé par un profil de filtrage. Il est
ainsi possible de définir plusieurs points de vue sur le même
document, qui se traduisent par autant d’ensembles différents de
groupes nominaux extraits du document. Le système doit donc être
calibré pour un champ d’investigation déterminé (domaine d’activité,
type de document) avant d’être exploité. Il requiert de l’opérateur
(documentaliste, terminographe, ...) une participation active pour la
mise au point des profils de filtrage. Ces profils sont définis en
fournissant au système des exemples de groupes nominaux recherchés
(dits pertinents) et de groupes nominaux non pertinents. Une
procédure d’apprentissage construit ensuite une modélisation
linguistique des syntagmes considérés pertinents. L’évaluation de la
pertinence des syntagmes nominaux repose sur une description
syntaxico-sémantique de leurs dépendances lexico-syntaxiques
élémentaires. Le filtrage des dépendances syntaxiques non pertinentes
est effectué en procédant à des élagages syntaxiques dans les arbres
des syntagmes à filtrer. Les groupes nominaux sont ainsi dépouillés de
propriétés linguistiques déclarées non pertinentes dans le profil de
filtrage.
Notre expérimentation montre que l’utilisation d’informations
sémantiques combinées avec des informations de structure syntaxique
accroît notablement les performances du filtrage des syntagmes
nominaux.
Abstract
We present a nominal phrase filtering system which relies on syntactic
and semantic information and we show that the use of semantic
information enhances the performance of the system. The system
extracts and filters nominal phrases that can be used to update
thesaurus or create l ists of free index. Because a given nominal
phrase may be relevant for a particular task or person and may not be
re levant for another one, the filtering process depends on specific
points of view. A point of view is made of linguistic material. To
built it, the user has to declare some phrases that he/she considers
to be relevant and some other phrases that he/she considers as non
relevant phrases. Theses examples are processed as a training set by
a learning procedure.
The result is a filtering profile, i.e. a modelization of what is a
relevant nominal phrase, in term of elementary syntactic dependancies
enriched with semantic categories. Each nominal phrase to filter is
splited into its elementary dependencies which are evaluated ac
cording to the profile. As a result, a filtered nominal phrase is
yielded and corresponds to the initial nominal phrase, rebuilt with
the dependencies which have not been fired.
Informations administratives
Jury
- Jean-Pierre Desclés — Rapporteur (Univeristé Paris IV)
- Benoît Habert — Examinateur (E.L.I, ENS Fontenay)
- Daniel Kayser — Directeur (Université Paris-Nord)
- Adeline Nazarenko — Examinateur (Univirsité Paris-Nord)
- Jean-David Sta — Examinateur (EDF-DER Clamart)
- Bernard Victorri — Rapporteur (ELSAP, ENS Montrouge)
Université : Université Paris 13 - Villetaneuse
Discipline : Informatique
Date de soutenance : 05 janvier 1998
Lieu de soutenance : Salle L322, Institut Galilée, Université Paris-Nord.
Ces renseignement ont été saisis le 01/08/2001 par Elie Naulleau.