Traitement automatique des entités nommées en arabe : détection et traduction

Souhir Gahbiche-Braham*, Hélène Bonneau-Maynard* et François Yvon*
*Université Paris Sud & LIMSI-CNRS BP 133 - 91403 ORSAY Cedex – France; souhir@limsi.fr, hbm@limsi.fr, yvon@limsi.fr
Résumé
La détection des entités nommées (EN) en langue arabe est un prétraitement potentiellement utile pour de nombreuses applications du traitement des langues, en particulier pour la traduction automatique. Cette tâche représente un sérieux défi, compte tenu des spécificités de l’arabe. Dans cet article, nous présentons une étude détaillée des entités nommées en arabe dans le cadre d’une application de traduction automatique statistique. Nous présentons notre système de détection des EN en arabe (NERAr), dans sa configuration de base, puis dans ses diverses évolutions. Dans notre architecture, NERAr est utilisé comme un prétraitement apportant des connaissances externes au système de traduction. Plusieurs stratégies d’intégration de ces connaissances sont considérées ; dans la configuration la plus favorable, une évaluation automatique, corroborée par des analyses manuelles, permet d’observer une légère amélioration de la traduction des EN et une réduction des erreurs induites par les mots inconnus.
Paru dans
Document
Rank
4