Typologies de textes pour le traitement automatique

Depuis quelques années, avec le développement de l’accès aux documents numériques, de nouveaux besoins émergent concernant l’exploitation des documents :

besoin de catégoriser les documents par thème, par genre,... pour faciliter la recherche documentaire et regrouper les documents par catégorie,
besoin d’isoler des zones de documents plutôt que des documents, pour montrer, par exemple, des parties pertinentes par rapport à une question posée,
besoin de naviguer à l’intérieur des documents, pour guider l’utilisateur dans sa recherche,
...

Ces besoins nécessitent d’avoir à la fois une vision globale du document afin de prendre en considération son organisation discursive, sa structuration thématique ou rhétorique,... et aussi une vision « locale » puisque ce sont souvent des marques linguistiques qui permettent de mettre à jour ces différents plans organisationnels.

Du point de vue du traitement automatique de la langue et de la linguistique textuelle, une dynamique de recherche s’est instaurée autour de ces besoins et de ces visions complémentaires avec la journée ATALA « Modéliser et décrire l’organisation discursive à l’heure du document numérique » de juin 2004, le colloque « discours et document » de Caen en juin dernier et l’appel de la revue TAL « Discours et document : traitements automatiques ». La part de « traitement automatique » est très variable suivant les approches.

Une autre communauté scientifique, « apprentissage à partir de textes » est aussi concernée par ces problématiques quand elle s’assigne des tâches de catégorisation automatique, de classification automatique, segmentation automatique de textes... La représentation du texte est souvent extrêmement simplifiée mais les solutions proposées sont implémentées et leur efficacité peut être testée et comparée.

La journée ATALA proposée s’inscrit dans ce cadre général mais souhaite concentrer les exposés sur la notion de typologie textuelle c’est à dire le rattachement d’un document à tel ou tel type de textes (ou genre ou registre, vu la terminologie fluctuante) : manuel technique, texte de loi, constat d’accident, rapport de stage, recommandation médicale, documentation technique, éditorial, article scientifique,... Si cette approche typologique fait l’hypothèse de types de textes définis a priori, l’appel concerne aussi, mais dans une moindre mesure, une typologie a posteriori où les catégories émergent en fonction de l’examen et du regroupement de traits linguistiques ou autres.

Dans cet éventail de recherches allant du plus théorique ou plus pratique, cette journée se veut un lieu d’échange et de discussions entre des chercheurs qui abordent le texte avec des points de vue très divers mais qui envisagent une automatisation des traitements.

Cette journée abordera en particulier les points suivants :

quelles mesures de distances pour calculer des proximités/ oppositions entre textes ? Quels facteurs, quels traits (lexical, syntaxique, sémantique, pragmatique) utiliser ?
les systèmes de TAL existants utilisent les mêmes outils, les mêmes ressources, réalisent les mêmes traitements quel que soit le type du texte. Est-ce pertinent ? Si non, est-il possible de traiter la circularité apparente : l’efficacité des outils dépend du type de textes mais la détection du type de textes nécessite l’utilisation d’outils ?
Les deux façons de définir une typologie a priori (avec des catégories pré-établies de genres, de domaines, de contextes de production) ou a posteriori (où les catégories émergent en fonction de l’examen et du regroupement de traits linguistiques), concordent- elles ?
Un texte est-il entièrement d’un certain type ou peut-il comporter des parties relevant chacune de types différents ? Quels moyens de repérage ?
En quoi les documents structurés renouvellent la problématique de typologie des textes ?
ou toute autre proposition de communication en relation avec les thèmes de la journée.

Les propositions de communication (de 1 à 5 pages) au format WORD ou PDF devront parvenir aux organisateurs pour le 10 novembre 2006, pour une journée le 9 décembre.

CONTACTS :

Comité d’organisation :

Maria Zimina-Poirot (LIPN, France)
Marie-Paule Jacques (LIPN, France)
Patrick Saint-Dizier (IRIT, France)
Thierry Poibeau (LIPN, France)
Françoise Gayral (LIPN, France)

Comité de lecture :

Anne Condamines (ERSS, France)
Patrice Enjalbert (GREYC, France)
Serge Fleury (SYLED, France)
Nicolas Hernandez (GREYC, France)
Gabriel Illouz (LIMSI, France)
Denise Malrieu (MoDyCO, France)
Jean-Luc Minel (MoDyCO, France)
Marie-Paule Péry-Woodley (ERSS, France)
Horacio Saggion (U. Sheffield, UK)
Marina Santini (U. Brighton, UK)

Programme

09H15-09H30 Accueil.
09H30-10H00 Introduction de la journée - Comité d’organisation.
10H00-10H40 Towards a Zero-to-Multi-Genre Classification Scheme. Marina Santini (University of Brighton, UK).
10H40-11H00 Pause café
11H00-11H40 La variation typologique : analyse systématique d’un corpus québécois. Margareta Kastberg Sjöblom(Université de Franche-Comté, France).
11H40-12H20 Classification automatique de documents issus du Web selon leur type de discours. Lorraine Goeuriot (Université de Nantes, France).
Repas
14H00-14H40 Grammaire du ’on’ et genres textuels. Denise Malrieu (MoDyCo, Paris X - Nanterre, France).
14H40-15H10 Session posters :
- Vers une typologie de mécanismes discursifs. Delphine Battistelli, Marie Chagnoux (Université Paris-Sorbonne, France).
- Terminology Extraction and Knowledge Management. Roberto Guarasci, Anna Rovella, Stefano Vuono (Università della Calabria, Italie), Paolo De Gasperis (CNR, Italie).
- Proposition de classification linguistique des textes spécialisés pour une analyse semi-automatique. Cas d’un corpus malgache sur l’environnement. Tantely Harinjaka Ravelonjatovo (Université d’Antananarivo, Madagascar).
15H10-15H50 Le genre comme point d’accès au document : analyse comparée de textes scientifiques en mécanique et linguistique. Viviane Clavier (Université Stendhal, Grenoble, France).
15H50-16H30 Vers un repérage automatique de zones de documents : une première étape dans l’appréhension de l’émergence terminologique. Maryvonne Holzem (Université de Rouen, France)

Résumés des communications

Transparents des communications

Date

9 décembre 2006

Lieu

ENST
46, rue Barrault
Salle B310
75013 Paris
France

Organisation

Maria Zimina-Poirot

Marie-Paule Jacques

Thierry Poibeau

Françoise Gayral (LIPN, France)

Patrick Saint-Dizier (IRIT, France)