Une méthode pour l’analyse descendante et calculatoire de corpus multilingues : application au calcul des relations sujet-verbe

Auteurs
Vergne, Jacques
Résumé
Nous présentons une méthode d’analyse descendante et calculatoire. La démarche d’analyse est descendante du document à la proposition, en passant par la phrase. Le prototype présenté prend en entrée des documents en anglais, français, italien, espagnol, ou allemand. Il segmente les phrases en propositions, et calcule les relations sujet-verbe dans les propositions. Il est calculatoire, car il exécute un petit nombre d’opérations sur les données. Il utilise très peu de ressources (environ 200 mots et locutions par langue), et le traitement de la phrase fait environ 60 Ko de Perl, ressources lexicales comprises. La méthode présentée se situe dans le cadre d’une recherche plus générale du Groupe Syntaxe et Ingénierie Multilingue du GREYC sur l’exploration de solutions minimales et multilingues, ajustées à une tâche donnée, exploitant peu de propriétés linguistiques profondes, la généricité allant de pair avec l’efficacité.
Mots-clés
expression régulière
chunk
chunk verbal
analyse descendante
relation sujet-verbe
Document