ANTHAPSI : un système d’analyse thématique et d’apprentissage de
connaissances pragmatiques fondé sur l’amorçage
ANTHAPSI : a system for thematic analysis and learning pragmatic knowledge which relies on bootstrapping
Olivier Ferret
Equipe : LIMSI
Courriel :
ferret@limsi.frPage :
http://www.limsi.fr/Individu/ferret/Cette thèse est téléchargeable à :
http://www.limsi.fr/Individu/ferret/These/presentationThese.html
Contenu
Mots-clés : Traitement automatique du langage naturel écrit, compréhension de textes, analyse thématique, apprentissage
automatique, apprentissage de connaissances à partir de textes
Keywords :
Natural language processing, text understanding systems, thematic analysis, machine learning, knowledge
learning from texts
RésuméLe système ANTHAPSI a été conçu dans le but d’apprendre de manière automatique des connaissances sur les
situations prototypiques du monde à partir de textes. Afin que ce processus d’apprentissage soit le plus général possible,
ANTHAPSI se place dans un cadre minimisant le recours à des connaissances pragmatiques fournies a priori. Pour mener
sa tâche à bien, il met l’accent sur la nécessité d’associer étroitement l’analyse des textes, en l’occurrence une analyse de
nature thématique, et l’apprentissage de connaissances. Cette association repose sur un modèle de mémoire spécifique,
chargé de servir de trait d’union entre ces deux processus. Cette mémoire joue en effet le rôle de réceptacle actif pour les
connaissances nécessaires au fonctionnement de l’analyse thématique, ces connaissances étant produites par le processus
d’apprentissage à partir des représentations des textes construites par l’analyse thématique. De cette manière,
l’association entre l’analyse des textes et l’apprentissage de connaissances permet de développer progressivement un
noyau initial de connaissances et met en oeuvre par là même la première forme d’amorçage présente dans ANTHAPSI,
appelée amorçage intra-niveau. ANTHAPSI explore également la façon dont ce noyau initial peut être constitué à partir
d’un niveau de connaissances moins précises et moins structurées. Il est ainsi formé de deux composantes
fonctionnellement similaires mais utilisant des connaissances et des représentations de niveaux différents : MLK
applique les principes de l’amorçage intra-niveau en manipulant des représentations composées de graphes conceptuels
tandis que ROSA le fait avec des représentations simplement composées de mots. L’amorçage inter-niveau montre en
l’occurrence comment ROSA peut contribuer, au moins sur le plan thématique, à la mise en opération de MLK.
AbstractThe ANTHAPSI system aims at automatically learning knowledge about prototypical situations of the world
from texts. For making this learning process the most general as possible, the use of a priori pragmatic knowledge in
ANTHAPSI is reduced as much as possible. In order to reach its goal, ANTHAPSI stresses the necessity for tightly
associating text analysis, here a thematic analysis, and knowledge learning. This association relies on a particular
memory model, in charge of linking the two processes. This memory actively stores the knowledge that is necessary for
the thematic analysis to work and that is produced by the learning process from the text representations built by the
thematic analysis. This way, the association between thematic analysis and knowledge learning makes an initial core of
knowledge to expand possible and implements the first form of bootstrapping of ANTHAPSI, which is called in-level
boostrapping. ANTHAPSI also tackles the way this initial core can be built from less precise and less structured
knowledge. Thus, it is composed of two parts which are similar on the functional point of view but use knowledge and
representations of two different levels : MLK applies the principles of the in-level boostrapping by using representations
made of conceptual graphs while ROSA applies the same principles but with representations only made of words. The
inter-level boostrapping here shows more specifically how ROSA can make MLK start working, at least on the thematic
point of view.
Informations administratives
Jury
- Brigitte Grau (Ex.)
- Daniel Kayser (Ex.)
- Yves Kodratoff (Ex.)
- Maria Teresa Pazienza (Rap.)
- Gérard Sabah (Dir.)
- Pierre Zweigenbaum (Rap.)
Université : Université Paris 11
Discipline : Informatique
Date de soutenance : 22 décembre 1998
Lieu de soutenance : LIMSI (Orsay)
Ces renseignement ont été saisis le 12/10/1999 par Pierre Zweigenbaum.