Indexation de textes médicaux par extraction de concepts, et son utilisation

Pouliquen Bruno

Équipe: Laboratoire d'Informatique Médicale

Contenu

Mots-clés: TAL, indexation, médecine, système de recherche d’information, lexique, thésaurus, web, résumé automatique, classification, similarité de documents
Keywords: TAL, indexation, medicine, search engine, lexicon, thesaurus, web
Résumé
Nous nous intéressons à l’accès à l’information médicale. Nous avons utilisé un lexique de flexions, dérivations et synonymes de mots spécifiquement créé pour le domaine médical, issu de la base de connaissance "Aide au Diagnostic Médical". Nous avons exploité les mots composés et les associations de mots de ce lexique pour optimiser l’indexation d’une phrase en mots de référence. Nous avons créé un outil d’indexation permettant de reconnaître un concept d’un thésaurus médical dans une phrase en langage naturel. Nous avons ainsi pu indexer des documents médicaux par un ensemble de concepts, ensuite nous avons démontré l’utilité d’une telle indexation en développant un système de recherche d’information et divers outils : extraction de mots-clés, similarité de documents et synthèse automatique de documents. Cette indexation diminue considérablement la complexité de la représentation des connaissances contenues dans les documents en langage naturel. Les résultats des évaluations montrent que cette indexation conserve néanmoins la majeure partie de l’information sémantique.

Abstract
The work presented specifically targets the accessibility to medical information. We used a French medical lexicon (specifically created for the medical domain), and built an index tool to particularly recognize a concept from a medical thesaurus that is present in a sentence written in natural language. First we indexed medical documents with a set of concepts and then demonstrated the utility of such indexing by developing a search engine and various tools which include : keyword identification, document similarity and automatic document synthesis. This indexing greatly aided in reducing the repository complexity of natural language documents. In addition, the evaluation results demonstrate that this indexing retains the main semantic information.  

Informations administratives

Jury
  • Pierre Le Beux, Président
  • Régis Beuscart, Rapporteur
  • Pierre Zweigenbaum, Rapporteur
  • Régis Duvauferrier
  • Anita Burgun
Université: Université de Rennes I, Faculté de médecine
Discipline: Génie Biologique et Médical
Date de soutenance: 07 juin 2002
Lieu de soutenance: Faculté de médecine, Rennes