Le Web comme ressource pour le TAL

Conférencier Invité : Adam Kilgarriff, ITRI, University of Brighton

Date Limite de Soumission : 20 janvier 2006
Date de Notification aux Auteurs : 24 février 2006
Date pour les Versions Finales : 7 mars 2006

Objectifs

L’utilisation du World Wide Web comme grande base d’exemples, pour différentes tâches liées au traitement automatique du langage, est une idée exploitée depuis peu. On peut citer les travaux de [Grefenstette 99] pour la traduction de noms composés, ceux de [Jacquemin et Bush 00] pour l’acquisition d’entités nommées, ceux de [Banko, Brill, Dumais et Lin 02] pour la réponse aux questions, ou encore ceux de [Volk 01] ou [Gala 03] pour la désambiguïsation du rattachement prépositionnel. Tous ces travaux, ainsi que d’autres plus récents, démontrent l’utilité du Web pour différentes tâches linguistiques, montrant une amélioration des résultats bien au-delà de ceux obtenus avec des ressources plus petites. Ceci, en dépit des critiques sur la qualité des données du Web. Cette journée ATALA donnera une vision générale des recherches actuelles qui utilisent le Web comme ressource pour différentes tâches liées au traitement automatique et se situera, aussi, dans la lignée d’autres événements scientifiques faisant preuve de l’essor de la thématique autour du Web comme ressource : Workshop on Web as a Corpus, Corpus Linguistics 05 ; Workshop on Deep Lexical Acquisition, ACL-SIGLEX 05 ; et des sessions sur l’analyse de texte dans la 14e International World Wide Web Conference WWW’2005.

Thèmes de la journée

La journée commencera avec un conférencier invité (Adam Kilgarriff) qui donnera une perspective globale des travaux en cours ainsi que des possibilités offertes par le Web. La journée se poursuivra par des exposés et démos parmi les thèmes suivants :

construction de corpus à partir du web
outils, interfaces, etc. de « butinage du web » (Web crawling) à des fins linguistiques
création d’ontologies et de bases terminologiques à partir du web
extraction de connaissances
utilisation du web dans des systèmes question-réponse
indexation et extraction d’information à partir de grandes collections de données
quantité et la qualité des données disponible sur le Web
exploitation de données bruitées

Cette journée montrera aussi des applications utilisant ces données et pourra traiter d’autres aspects du WWW comme ressource linguistique. Organisation

communications orales (environ 30mn de présentation, proposition sur deux à quatre pages),
démonstrations (une ou deux pages présentant les caractéristiques de la ressource : architecture, couverture, type d’information, etc.)

Les propositions seront à envoyer à Nuria Gala (nuria.gala@up.univ-aix.fr) au plus tard le 20 janvier (textes en français pour les francophones, ouvert aux participants de tous les pays -anglais autorisé). Les résumés seront publiés après la Journée sur le site de l’ATALA (http://www.atala.org/rubrique.php3 ?id_rubrique=2).

Programme

09h30 - 09h40 : Accueil, N. Gala (DELIC, Univ. Provence)
09h40 - 10h40 :Bigger and better and bigger and better : a computational, corpus-driven research programme for linguistics, A. Kilgarriff (Lexical Computing Ltd, Brighton, UK)
10h40 - 11h00 : Pause Café et posters
11h00 - 11h30 : Intérêts d’un corpus issu du Web pour les systèmes Question-Réponse,V. Moriceau, F. Aouladomar (IRIT-CNRS, Toulouse)
11h30 - 12h00 : Le Web comme source de connaissances pour améliorer la fiabilité des réponses, B. Grau, I. Robba, A. Vilnat (LIMSI, Orsay)
12h00 - 12h30 : Validation des calculs de relations de dépendance : une expérience sur le corpus ’Internet’,T. Lebarbé (LIDILEM, Grenoble)
12h30 - 14h00 : Déjeuner et posters
14h00 - 14h30 : Repérage de créations lexicales sur le Web francophone, F. Sajous, L. Tanguy (ERSS, Univ. Toulouse)
14h30 - 15h00 : Utilisation du Web comme ressource bilingue pour la traduction de termes complexes français/anglais, S. Léon (DELIC, Univ. Provence)
15h00 - 15h20 : Pause Café et posters
15h20 - 15h50 : Constitution et exploitation d’un corpus parallèle issu du web pour l’extension d’une terminologie multilingue, L. Déléger (Inserm U729, Paris) , P. Zweigenbaum (Inserm U729, AP-HP, Inalco, Paris)
15h50 - 16h20 : Bénéfice d’un catalogue spécialisé de sites internet médicaux pour la constitution de corpus à des fins de recherche, T. Delbecque (Inserm U729, Paris), P. Zweigenbaum (Inserm U729, AP-HP, Inalco, Paris)
16h20 - 16h40 : Clôture de la journée, G. Grefenstette (CEA)

Posters :

L. Santorum (Univ. Paris 4) "Rules for the optimisation of the automatic inflexion of Italian "co" and "go" N and Adjs"
P. Saint-Dizier (IRIT-CNRS, Toulouse), Sina Zarriess (Univ. Postdam, Allemagne) "Que peut-on attendre d’un corpus du Web pour caractériser les facettes de l’instrumentalité" ?
T. Roy (GREYC, Univ. Caen) "Construction et exploration de corpus à partir du Web à l’aide d’une plate-forme logicielle de cartographie documentaire"
C. Fairon (CENTAL, Univ. de Louvain) "Développement automatisé de corpus spécialisés à partir du Web : l’apport du format RSS"

Transparents_1

Transparents3

Transparents_2

Transparents_4

Posters

Date

11 mars 2006

Lieu

ENST
46, rue Barrault
75013 Paris
France

Organisation

Nuria Gala (DELIC)

Gregory Grefenstette (CEA)