Des ressources sémantiques existantes à un FrameNet français ? (Contre-)arguments, ressources, methodes et outils

Dates importantes

Date de la journée : 13 mai 2006
Date limite de soumission : 13 mars 2006
Date de notification aux auteurs : 5 avril 2006
Date pour les versions finales : 26 avril 2006

Contexte

Actuellement, l’anglais est la seule langue dotée d’un éventail de ressources sémantiques à large couverture, librement accessibles et représentant différentes approches théoriques et méthodologiques : parmi celles à fort impact pour le TAL, citons WordNet et FrameNet. Le premier (115000 synsets, 203000 entrées lexicales) a été développé à partir de 1985 en se fondant sur une théorie inspirée des recherches en psychologie. Le second (8900 entrées, 620 cadres, 130000 exemples annotés) est fondé sur la sémantique des cadres ("frame semantics") et a pour objectif de documenter la combinatoire syntaxique et sémantique pour chacun des sens d’une entrée lexicale à travers une annotation manuelle d’exemples choisis dans des corpus sur des critères de représentativité lexicographique. Les annotations sont ensuite synthétisées automatiquement dans des tables, qui résument pour chaque mot les cadres avec leur actants sémantiques et arguments syntaxiques. La totalité des outils et données résultantes - la description et la hiérarchisation des cadres et des actants sémantiques (620 cadres), la description des unités lexicales (8900 entrées) ainsi que la base des exemples annotés (130000 phrases) - est distribuée librement et fournit un point de départ intéressant pour des développements sémantiques en TAL, tels que l’étiquetage sémantique, la recherche d’information, l’inférence pour la compréhension automatique de textes ou la résolution d’anaphores.

Au vu de l’importance de telles ressources lexico-sémantiques non seulement pour le TAL, mais plus largement en sémantique des langues naturelles dans un perspective comparative, des initiatives de constitution de bases similaires ont vu le jour pour d’autres langues. A côté des réseaux sémantiques inspirés de WordNet (BalkanNet et EuroWordNet), des initatives partant du FrameNet anglais sont apparues, notamment pour l’espagnol, le japonais, le tchèque, le chinois et l’allemand. Ces initiatives expérimentent différentes approches : quasi reprise à l’identique de la chaîne éditoriale, induction du lexique à partir d’une annotation exhaustive d’un corpus de référence, approches statistiques ou symboliques à partir de corpus parallèles ou traduction du corpus des exemples anglais et appariement des cadres. Le choix parmi ces approches se fait toujours en fonction des données initialement disponibles (corpus bruts ou annotés syntaxiquement, qualité et taille de lexiques mono- ou bilingues) et se traduit différemment en termes d’investissement et de qualité lexicographique des ressources résultantes.

Notre proposition repose sur la conviction que l’absence de ressources sémantiques comparables - c’est-à-dire librement accessibles, de bonne qualité lexicographique, suffisamment structurées pour être exploitables et de large couverture - risque à moyen terme de pénaliser l’avancée du TAL de l’espace francophone. Actuellement, aucune des ressources sémantiques dont nous disposons ne remplit tous ces critères : à titre d’exemple, le DiCo est de bonne qualité lexicographique et suffisamment structuré, mais ne présente pas pour l’instant, une couverture suffisante. Le TLFi couvre une large partie du lexique français, mais les informations sémantiques sont difficilement exploitables dans leur structuration actuelle. L’acquisition automatique de connaissances sémantiques à partir de corpus peut être une piste intéressante à explorer, mais dans l’état actuel des choses, les travaux dans ce domaine restent majoritairement orientés vers des domaines techniques particuliers et sont souvent conduits dans une perspective d’acquisition terminologique ou ontologique. Par ailleurs, en l’absence de ressources de référence, leur évaluation n’est pas aisée. Pour l’instant, les ressources obtenues par des approches endogènes ne sont donc pas encore à considérer comme concurrentes aux ressources dictionnairiques, mais plutôt comme complémentaires.

Appel à contributions

Dans l’optique de constituer des ressources sémantiques pour le Français qui soit pérennes et évolutives, de bonne qualité linguistique et comparables avec des ressources existantes pour l’anglais, au moins deux projets s’inspirant du FrameNet anglais sont actuellement en cours ou en préparation : le projet FR.FrameNet (collaboration ATILF/LORIA, ICSI Berkeley et Université de Saarbrücken) qui évalue les ressources et méthodologies pour un FrameNet français ( http://libresource.inria.fr/projects/framenet/ ) ; le projet "Romance FrameNet" qui vise à la construction parallèle d’un lexique sémantique pour les principales langues romanes. Dans ce cadre, nous souhaitons ouvrir la discussion plus largement à la communauté francophone (de TAL et de sémantique) lors d’une journée d’étude qui fasse le point sur les (contre-)arguments théoriques et pratiques concernant un FrameNet français. D’un point de vue théorique, nous invitons des contributions sur les fondements de la sémantique des cadres et/ou son articulation avec des approches alternatives ou complémentaires. D’un point de vue pratique, nous invitons des contributions sur les ressources, outils et méthodes pour la construction de ressources sémantiques et leur (im)possible articulation avec les bases de données constituant le FrameNet. Ces contributions pourraient par exemple porter sur :

les ressources sémantiques du Français : lexiques et corpus ;
les méthodes et outils d’acquisition automatique d’informations sémantiques à partir de corpus ou de lexiques ;
les techniques de projection d’informations sémantiques dans des corpus alignés ;
le positionnement de la sémantique des cadres ("frame semantics") par rapport à d’autres approches théoriques (lexique génératif, sémantique différentielle, sémantique compositionnelle) ;
les scénarios d’utilisation et d’interfaçage d’un lexique de type FrameNet dans des applications TAL ;
des études de cas lexico-sémantiques appliquées au français (cf. les travaux de S. Atkins pour l’anglais).

Comité de Programme

Katrin Erk (Université de Saarbrücken)
Joseph Ruppenhofer (ISCI, Berkeley)
Pierrette Bouillon (ISSCO)
Jean Véronis (DELIC)
Guillaume Pitel (LORIA)
Susanne Alt (ATILF)

Instructions pour la soumission

Les auteurs sont invités à soumettre leurs articles portant sur les thématiques abordées par cette journée d’étude. Les articles devront être formatés selon le style des conférences TALN (modifié en enlevant les informations relatives à la conférence) et ne devront pas être anonymes. Les articles soumis devront faire environ 6 pages. La langue officielle de l’atelier est le Français, mais il est possible de soumettre un article en Anglais si aucun des auteurs ne parle le Français. Les fichiers décrivant le style TALN 2006 sont disponibles ici : http://www.taln.be/index.php?lang=fr&page=96

Les articles devront être envoyés en format PDF, au plus tard le 13 mars 2006 à salt@atilf.fr et Guillaume.Pitel@gmail.com

Voir : Site Inria

Programme

Introduction (9h30 - 9h50)

o FrameNet : Cadre, méthodologie, objectifs. - Susanne Alt (ATILF, Nancy)
* Annotation de cadres sémantiques dans des corpus multilingues (9h50 - 10h45)
o Annotation projection as a strategy for the cross-lingual induction of frame semantic lexicons. - Sébastien Pado (Université de Saarbrücken)

Pause Café

Explorer les corpus : Des statistiques aux cadres sémantiques ? (11h00 - 12h30)
o Construire des ressources sémantiques générales à partir de corpus. - Didier Bourigault, Cécile Fabre, Edith Galy (ERSS Toulouse)
o Ressources bilingues génériques et analyse sémantique latente (LSA) pour l’annotation de corpus français - Guillaume Pitel (LORIA, Nancy)

Déjeuner

Cadres sémantiques... et d’autres perspectives théoriques (14h00 - 15h30)
FrameNet et le traitement de la polysémie. - Lucie Barque, Lattice, Paris)
« It is not our job to know which sense it had in the corpus where we found it » FrameNet et les lexiques sémantiques : Ont-ils un sens ? Quels sens ont-ils ? (Mathieu Valette, ATILF, Nancy)

Pause Café

Au delà des verbes et des noms : prépositions, noms propres ... et cadres sémantiques (15h45h - 17h15)
Prolex : une ressource sémantique multilingue des noms propres. - Denis Maurel, Mickaël Tran (Université de Tours)
PrepNet : une description des prépositions basée sur des cadres. (Patrick Saint-Dizier, IRIT, Toulouse)

Conclusions (17h15 - 17h30)

Est-ce que FrameNet peut être un cadre fédérateur pour une ressource sémantique du français ?

Voir : Transparents des communications

Date

13 mai 2006

Lieu

ENST
46, rue Barrault
75013 Paris
France

Lien

http://libresource.inria.fr/projects/atala

Organisation

Susanne Alt (ATILF)

Guillaume Pitel (LORIA)