Traitement des Erreurs d’Accord de L’Arabe basée
sur une Analyse Syntagmatique Étendue pour la Vérification
et une Analyse Multicritère pour la Correction
Lamia Belguith Hadrich
Equipe : LARIS (Laboratoire de Recherche en Informatique de Sfax)
Courriel :
l.belguith@fsegs.rnu.tn
Contenu
Mots-clés : Erreurs d’accord, détection, correction, analyse syntagmatique étendue,
classement multicritère.
RésuméLe présent mémoire porte sur le traitement des erreurs d’accord dans les textes
arabes non voyellés. Nous avons essayé par le biais de ce travail d’apporter notre
contribution à l’automatisation de la langue arabe ainsi qu’à la conception de
techniques d’analyse en vue de la détection et de la correction des erreurs
d’accord. Ainsi, nous avons proposé des solutions aux deux principaux problèmes,
qui sont classiquement en vigueur lors de la vérification et de la correction
des erreurs d’accord dans les textes écrits en Langage Naturel.
Le premier problème réside dans l’identification des structures de dépendance
syntaxique concernées par l’accord. Pour cela, nous avons proposé une méthode
d’analyse globale baptisée "analyse syntagmatique étendue", permettant de
localiser les frontières syntagmatiques, dans un premier temps, et de regrouper,
dans un deuxième temps, tous les syntagmes qui ont un lien d’accord entre eux.
Le deuxième problème concerne le choix de la meilleure correction.
Nous avons ainsi proposé une méthode de classement multicritère qui a
l’avantage de réduire, d’emblée, le nombre de scénarios de correction,
en écartant ceux dominés. Les scénarios efficaces seront classés selon
trois critères d’évaluation : le critère de fréquence, le critère morphologique
et le critère typographique.
Pour la définition de ces critères, nous nous sommes basés sur une étude
typologique et statistique des erreurs d’accord que nous avons réalisé sur
trois corpus réels de phrases. Cette étude nous a permis aussi de recenser
les différents types d’erreurs d’accord, de les classer et d’analyser leurs
causes possibles.
Les méthodes proposées dans ce travail ont été validées par la réalisation
d’un prototype (DECORA) et testées sur la base de phrases réelles extraites
des trois corpus étudiés.
Informations administratives
Jury
- Mohamed BEN AHMED Président
- Christian FLUHR Rapporteur
- Zaher MAHJOUB Rapporteur
- Kamel BEN SALEM Examinateur
- Abdelmajid BEN HAMADOU Directeur de these
Université : Faculté des Sciences Economiques et de Gestion de Sfax - Tunisie
Discipline : Informatique
Date de soutenance : 9 février 1999
Lieu de soutenance : Faculté des Sciences de Tunis (TUNISIE)
Ces renseignement ont été saisis le 22/04/2001 par Lamia Belguith Hadrich.