Construction d’un corpus parallèle à partir de corpus comparables pour la simplification de textes médicaux en français

Rémi Cardon* and Natalia Grabar*
*UMR 8163 STL – CNRS / Université de Lille
Résumé
La simplification automatique a pour objectif de produire une version de textes plus facile à comprendre à destination d’un public identifié. Nous nous intéressons à la simplification de textes médicaux. Le plus souvent, le lexique et les règles de simplification sont acquis à partir de corpus parallèles. Comme de tels corpus n’existent pas en français, nous proposons des méthodes pour les construire à partir de corpus comparables. Notre méthode repose sur une étape de filtrage, destinée à ne garder que les meilleures phrases candidates à l’alignement, et une étape d’alignement considérée comme un problème de catégorisation. Il s’agit de décider si une paire de phrases est alignable ou non. Nous exploitons différents types de descripteurs (essentiellement basés sur le lexique et les corpus) et obtenons jusqu’à 0,97 de F-mesure avec les données équilibrées.
Résumé (en anglais)
The purpose of automatic simplification is to create version of texts which is easier to understand for a given targeted population. We aim at simplifying medical texts. Usually, lexicon and rules required for the simplification are acquired from parallel corpora. Since such corpora are not available for French, we propose methods for their creation from comparable corpora. Our method relies on filtering step, which purpose is to keep the best sentence can- didates for alignment, and alignment step considered as categorization problem. The aim is to decide whether a pair of sentences is alignable or not. We exploit different types of features (mainly issued from lexicon and corpora) and get up to 0.97 F-measure with balanced data.