Le résumé automatique des textes scientifiques et techniques; aspects linguistiques et computationnels : réalisation d'un prototype procédant par extraction de phrases du texte source - RAFI- (Résumé Automatique par Fragments Indicateurs)

Lehmam Abderrafih

Équipe: LANDISCO
Courriel: lehmam@free.fr

Contenu

Mots-clés: linguistique, linguistique informatique, extraction de l’information, recherche de l’information assistée par ordinateur, analyse du discours, référence anaphorique, thésaurus, résumé automatique de texte, système documentaire cognition.
Keywords: computer scientific linguistics, extraction of information, research of information assisted by computer, scientific and technical discourse, thesaurus, automatic text summary, documentary system, cognition
Résumé
Le résumé de texte automatique s’inscrit dans le cadre de l’ingénierie linguistique. Le travail entrepris lors de cette recherche propose un système qui transforme automatiquement un texte source brut en un texte cible plus réduit. Ce système traite préférentiellement les textes de type scientifique et technique. Le but de la recherche a donc consisté à automatiser la tâche de résumé. Le système est fondé sur la reconnaissance d’éléments phrastiques qui lui permettent d’évaluer la pertinence de la phrase en vue d’une éventuelle sélection pour la constitution du résumé. La méthode mise en œuvre cherche à donner un score à toutes les phrases du texte source et ensuite à procéder à l’élimination des phrases ayant obtenu les scores les plus bas et des phrases réalisant un score nul. Nous avons fait appel, pour la réalisation du système, aux moyens linguistiques d’analyse du discours et aux capacités de calcul des outils informatiques. Le système construit peut être adapté à Internet ou à des Intranets à travers une interface le liant à des des moteurs de recherche.
Abstract
The automatic text summary concerns the language industries. This work proposes a system automatically and directly transforming a source text into a reduced target text. The system deals exclusively with scientific and technical texts. It is based on the identification of specific expressions allowing an evaluation of the relevance of the sentence concerned, which can then be selected for the elaboration of the summary. The procedure consists in attributing a score to each sentence of the text and then eliminating those having the lowest scores. To produce the RAFI system (’Résumé Automatique à Fragments Indicateurs’ Automatic Summary based on Discourse Indicative Fragments), we resorted to the linguistic means of discourse analysis and the computing capacity of data processing instruments. This system would be adapted to the search tools of Internet or intranets.  

Informations administratives

Jury
  • Henri-Claude Grégoire : codirecteur
  • Michel Charolles : codirecteur
  • C. Fuchs (Directeur de recherche CNRS, ELSAP Caen) : rapporteur
  • J. P. Desclés (Professeur, université Paris IV) : rapporteur
  • J. C. Gardin (Professeur, EHESS, Paris) : membre du jury
Université: Université Nancy 2
Discipline: Linguistique informatique
Date de soutenance: 22 décembre 1995
Lieu de soutenance: Université Nancy 2