Un modèle théorique d’inférence de structures
sémantiques et discursives dans le cadre de la
génération automatique de textes
Laurent Roussarie
Equipe : Talana
Courriel :
laurent.roussarie@linguist.jussieu.frPage :
talana.linguist.jussieu.fr/~laurent/
Contenu
Mots-clés : sémantique formelle,
génération automatique de textes,
structure du discours,
SDRT (Segmented Discourse Representation Theory)
RésuméCette thèse est consacrée au problème de la structuration du discours dans
la perspective de la génération automatique de textes. De nombreux
travaux abordent cette opération en montrant qu’elle doit intervenir
dès les premières étapes du processus de génération.
Il est courant, également, de constater que les modèles de structuration
de discours proposés jusqu’ici tiennent pour acquise et prédéterminée
la notion de proposition, c’est-à-dire une classe d’objets qui sont déjà
de nature linguistique. Nous commençons par souligner le paradoxe que
ce type d’approches peut induire : un générateur produit du texte à
partir de données supposées indépendantes de la langue ; or d’une part
la structuration du discours consiste habituellement à agencer des
lots de propositions et d’autre part le découpage et le dosage de
l’information dans des formes propositionnelles ressortissent déjà à la
mise en discours, c’est-à-dire à la mise en langue.
Notre étude propose alors un modèle théorique de génération profonde
systématique qui, par hypothèse, prend en entrée des données codées
sous forme mathématique pour les affranchir de tout préjugé
linguistique. Le champ d’étude est délimité en s’appliquant au cas des
récits portant sur des phénomènes spatio-temporels, et l’objectif
central est de produire toutes le paraphrases discursives possibles
pour relater un même épisode.
Le modèle consiste en un jeu d’inférences logiques qui parcourt un
système de représentations stratifié. Plusieurs ensembles de règles
permettent tour à tour d’inférer d’abord des formulations logiques
élémentaires, puis des schémas d’événements, puis des propositions
minimales et enfin des plans de discours structurés par des relations
rhétoriques et qui s’inscrivent dans le cadre de la SDRT (Segmented
Discourse Representation Theory). Nous insistons également sur la
nécessité de gérer rigoureusement des phénomènes sémantiques comme les
inférences implicites ou les présuppositions.
Informations administratives
Jury
- Laurence Danlos (Directrice de thèse)
- Pascal Amsili
- Nicholas Asher (Rapporteur)
- Francis Corblin (Président, Rapporteur)
- Michael Zock
Université : Université Paris 7
Discipline : Linguistique
Date de soutenance : 21 décembre 2000
Lieu de soutenance : Université Paris 7
Ces renseignement ont été saisis le 10/01/2001 par Laurent Roussarie.