Quels analyseurs syntaxiques pour le français ?

Journée de l’ATALA organisée conjointement à la conférence IWPT 2009.

Objectifs

Le projet Technolangue EASy et son successeur le projet ANR Passage ont permis de rendre visible et de faire évoluer les analyseurs syntaxiques du français, au travers des premières campagnes d’évaluation pour le français, en 2004, 2007 et automne 2009.

L’objectif principal de cette journée ATALA, ouverte à tous, est de fournir l’occasion de présenter les approches, techniques et performances des systèmes d’analyse syntaxique du français actuellement disponibles, qu’ils aient ou non participé aux campagnes d’évaluation. La notion de système d’analyse comprend bien sûr les aspects purement syntaxiques mais sans faire l’impasse sur l’ensemble des composants et ressources linguistiques nécessaires à tout système opérationnel et sur les phases amont éventuelles d’apprentissage et de mise au point.

Cette journée a eu lieu le 10 Octobre 2009 sur le site de l’université Paris 7, en conjonction avec IWPT’09 (7-9 Octobre), la 11 Conférence internationale sur les technologies d’analyse syntaxique. L’accès à cette journée est libre et gratuit.

Conférencier invité

  • Issues in Developing and Distributing a Parser for English : The RASP System, John Carroll (University of Sussex, Brighton, UK)

The first public release of the RASP System was in October 2002 ; since then RASP has been used in three different scenarios, with differing requirements : (1) as a platform for investigating research questions in parsing, (2) as part of research systems in areas such as ontology and lexicon construction, anonymisation, anaphora resolution, word sense disambiguation, and several forms of text classification, and (3) within commercial applications for sentiment classification, mobile phone-based question-answering, text mining for non-native language learner examination design, and biomedical information extraction. I will talk about our experiences in developing, distributing and supporting RASP over the past several years, addressing important pragmatic issues including modularisation, efficiency, packaging for distribution, input/output formats and encodings, common end-user problems, and evaluation in support of development and cross-system comparison.

Actes et diaporamas

Depuis près d’une vingtaine d’années, le LATL travaille au développement d’un modèle d’ana- lyse syntaxique. Connus sous le nom de Fips, ce modèle d’analyseurs a connu de nombreux développements et modifications. Entre la version de cet analyseur, présentée en 1991 à l’ATALA (cf. Laenzlinger et Wehrli, 1991) et la version actuelle, pratiquement rien en dehors du nom, de l’objectif général et de certains présupposés linguistiques n’a été conservé.

  • Un point sur les outils du LPL pour l’analyse syntaxique du français, Stéphane Rauzy et Philippe Blache : article | présentation

Nous présentons ici les différents modules et ressources développés au Laboratoire Parole et Langage pour l’analyse syntaxique du français. Ces outils sont basés sur des approches symboliques ou stochastiques, selon les caractéristiques de la tâche à effectuer. La chaîne de traitement est composée d’un segmenteur par règles et d’un lexique couvrant du français qui alimentent l’entrée d’un étiqueteur morphosyntaxique probabiliste. Deux analyseurs de surface, l’un symbolique et l’autre stochastique, sont ensuite présentés. Un analyseur stochastique profond, récemment développé, est aussi proposé.

  • TagParser : combiner un corpus annoté avec un corpus brut, Gil Francopoulo : article | présentation

L’article se situe dans le contexte d’une recherche appliquée du secteur privé. Après avoir constaté que la combinaison d’un bon lexique avec un bon analyseur ne suffit pas à con-stituer un analyseur industriel opérationnel, nous avons cherché des solutions efficaces pour aller un peu plus loin. Nous montrons qu’il faut d’une part confronter la chaîne de traitement à des corpus réels, mais aussi et sur- tout, qu’il faut gérer le cycle de vie de l’ana- lyseur dans un atelier logiciel qui permette une évolution incrémentale et stable sur plusieurs années. Dans cette optique, il est essentiel que le temps de travail ne soit pas gâché dans une régression et que les objectifs de qualité en termes de rappel et précision soient correctement ciblés et atteints.

  • Analyse syntaxique du français parlé, Christophe Cerisara et Claire Gardent : article | présentation

Il existe pour le Français de nombreux systèmes d’analyse syntaxique. Cependant, la plupart de ces analyseurs sont conçus pour la langue écrite. Dans cet article, nous nous concentrons sur la langue orale et présentons une infrastructure logicielle pour le développement d’un analyseur de la langue orale. Nous discutons les résultats d’expériences préliminaires et montrons en particulier, qu’après apprentis- sage sur un corpus oral de petite taille (environ 20 000 mots), l’analyseur sto- chastique utilisé exhibe une précision en dépendances typées variant entre 70.3% et 71.8% selon le degré de vérification de la référence manuelle (vérification ou non par un linguiste expert). Nous utilisons également l’infrastructure développée pour entraîner l’analyseur sur une partie du corpus mis à disposition par la campagne EASY 2007 (Hamon et al., 2008) et obtenons une précision de 61% par validation croisée sur ce corpus.

  • La chaîne d’analyse syntaxique de LEOPAR, Guy Perrier, Bruno Guillaume et Jonathan Marchand : article | présentation

LEOPAR est un analyseur syntaxique fondé sur le formalisme des grammaires d’interaction, intégré dans une chaîne d’outils visant avant tout à la précision et la couverture linguistique. À l’aide de XMG, il est possible de construire des grammaires de façon semi-automatique à partir de connaissances linguistiques. Ces grammaires sont ensuite ancrées à l’aide de lexiques indépendants d’un quelconque formalisme. Les grammaires ancrées sont enfin utilisées par LEOPAR pour analyser des corpus bruts et produire des sorties sous forme d’arbres syntagmatiques ou de structures de dépendances.

  • Une boîte à outils pour développer et utiliser les grammaires de prégroupe, Denis Béchet et Annie Foret : article | présentation

Les grammaires de prégroupes sont un formalisme dans l’esprit des grammaires catégorielles et du calcul de Lambek mais contrairement a ces dernières, elles sont analysables en temps polynomial. Nous présentons dans cet article une boîte a outils contenant un analyseur et un ensemble de programmes permettant de développer et d’utiliser des grammaires en particulier pour le francais.

  • Framework modulaire de développement de ressources et d’évaluation diagnostique pour l’amélioration rapide d’un système de TAL, Gaël de Chalendar et Damien Nouvel : article

Les systèmes de Traitement automatique des Langues (TAL) sont des logiciels complexes dont le développement implique de nombreuses années-homme de travail, tant en termes de codage que de développement des ressources. Étant donnés un dictionnaire de 110k lemmes, quelques centaines de règles d’analyse syntaxique, des matrices de 20k n-grams et d’autres ressources, quel sera l’impact sur un analyseur syntaxique de l’ajout d’une nouvelle catégorie possible à un verbe donné ? Quelles seront les conséquences de l’ajout d’une nouvelle règle syntaxique ? Toute modification peut causer, au-delà de ce qui était attendu, des effets de bord difficilement prévisibles plus présent, étant données la taille croissante des ressources et la quantité de code impliqués par la mise en œuvre de tels systèmes.

  • FRMG : évolutions d’un analyseur syntaxique TAG du français, Éric de la Clergerie, Benoît Sagot, Lionel Nicolas et Marie-Laure Guénot : article | présentation

Nous présentons FRMG, un analyseur syntaxique du français à large couverture, en mettant en avant les méthodes qui ont permis d’améliorer ses performances depuis sa naissance, en 2004, initiée dans le cadre de la première campagne EASy d’évaluation des analyseurs syntaxiques.

Organisation

Comité scientifique

  • Salah Aït-Mokhtar (XRCE)
  • Philippe Blache (CNRS/Université de Provence)
  • Gael de Chalendar (CEA-LIST)
  • Jacques Chauché (Université de Montpellier II)
  • Gil Francopoulo (TagMatica)
  • Dominique Laurent (Synapse)
  • Alexis Nasr (Université de la Méditerranée, Aix-Marseille 2)
  • Patrick Paroubek (LIMSI)
  • Guy Perrier (LORIA)
  • Owen Rambow (Columbia University)
  • Benoît Sagot (INRIA)
  • Anne Vilnat (LIMSI)
  • Eric Werhli (LATL, Université de Genève)

Liens

Voir : Site à visiter

Date
10 October 2009
Lieu

Université Denis Diderot
Amphi Buffon
75000 Paris
France

Organisation
Eric de la Clergerie (INRIA Alpage)
Patrick Paroubek (LIMSI CNRS)