TALN 2000

Aloulou, Chafik ; Hadrich Belguith, Lamia ; Ben Hamadou, Abdelmajid (2000). Vers un système d’analyse syntaxique robuste pour l’Arabe : Application au recouvrement des erreurs de la reconnaissance

RÉSUMÉ : Le degré de profondeur et de finesse de l’analyse syntaxique d’un texte écrit dépend énormément de l’objectif de l’analyse (analyse globale, analyse partielle, analyse détaillée, etc.) ainsi que du type d’application nécessitant cette analyse. Dans cet article, nous présentons une approche originale d’analyse syntaxique robuste appliquée à l’arabe et basée sur l’architecture multiagent. Comme première application de notre approche, notre système sera couplé avec un système de reconnaissance de l’écriture arabe dans le but d’effectuer, d’une part, la validation linguistique des mots reconnus par l’OCR (Optical Character Recognition) et d’autre part la détection et la correction des erreurs d’ordre lexicales, morphologiques, syntaxiques (cas des erreurs d’accord) et qui sont dues à la non ou au mal reconnaissance de certains mots par l’OCR. Le couplage de notre système avec le système de reconnaissance de l’écriture arabe entre dans le cadre d’un projet de coopération avec l’équipe Perception, Système et Information (PSI) de l’université de Rouen.

MOTS-CLÉS : analyse syntaxique ; analyse syntaxique robuste ; langue ; langue arabe ; corpus ; système de reconnaissance ; système de reconnaissance de l’écriture arabe

Béchet, Frédéric ; Nasr, Alexis ; Genet, Franck (2000). Enrichissement automatique de lexique de noms propres à partir de corpus

RÉSUMÉ : Cet article présente une méthode d’étiquetage sémantique de noms propres fondé sur la technique des arbres de décision. Ces derniers permettent de modéliser les éléments saillants dans les contextes d’occurrence de noms propres d’une classe donnée. Les arbres de décision sont construits automatiquement sur un corpus d’apprentissage étiqueté, ils sont ensuite utilisés pour étiqueter des noms propres apparaissant dans un corpus de test. Les résultats de l’étiquetage du corpus de test est utilisé pour enrichir un lexique de noms propres. Ce dernier peut être utilisé à son tour pour réestimer les paramètres d’un étiqueteur stochastique. Nous nous intéressons en particulier au cas où le corpus de test a été glané sur le Web.

MOTS-CLÉS : expression régulière ; entrée lexicale ; étiquetage ; arbre ; arbre de décision ; corpus ; corpus de test

MOTS-CLÉS : analyse syntaxique ; analyse syntaxique robuste ; langue ; langue arabe ; corpus ; système de reconnaissance ; système de reconnaissance de l’écriture arabe

Blache, Philippe (2000). Le rôle des contraintes dans les théories linguistiques et leur intérêt pour l’analyse automatique : les Grammaires de Propriétés

RÉSUMÉ : Tous les formalismes linguistiques font usage de la notion de contrainte qui, dans son sens le plus large, indique une propriété devant être satisfaite. Les contraintes sont extrêmement utiles à la fois pour représenter l’information linguistique, mais également pour en contrôler le processus d’analyse. Cependant, l’usage qui est fait des contraintes peut être très différent d’une approche à l’autre : dans certains cas, il s’agit simplement d’un mécanisme d’appoint, dans d’autres, les contraintes sont au coeur de la théorie. Il existe cependant un certain nombre de restrictions à leur utilisation, en particulier pour ce qui concerne leur implantation. Plus précisément, s’il semble naturel (au moins dans certains paradigmes) de considérer l’analyse syntaxique comme un problème de satisfaction de contraintes, on constate cependant qu’il est extrêmement difficile de réaliser concrètement une telle implantation. Ce constat est en fait révélateur d’un problème dépassant le simple cadre de l’implémentation : nous montrons dans cet article qu’une approche totalement basée sur les contraintes (permettant donc de concevoir l’analyse comme un problème de satisfaction) est incompatible avec une interprétation générative classique accordant un statut particulier à la relation de dominance. Nous proposons ici un cadre permettant à la fois de tirer parti des avantages des grammaires syntagmatiques tout en s’affranchissant des problèmes liés aux approches génératives pour ce qui concerne l’usage des contraintes en tant qu’unique composant grammatical. Nous présentons ici cette approche, les Grammaires de Propriétés, ainsi que leur implémentation.

MOTS-CLÉS : contrainte contextuelle ; grammaire ; grammaire de propriétés ; relation de dépendance ; grammaire de dépendance

Jacquemin, Christian ; Bush, Caroline (2000). Fouille du Web pour la collecte d’Entités Nommées

RÉSUMÉ : Cette étude porte sur l’acquisition des Entités Nommées (EN) à partir du Web. L’application présentée se compose d’un moissonneur de pages et de trois analyseurs surfaciques dédiés à des structures spécifiques. Deux évaluations sont proposées : une évaluation de la productivité des moteurs en fonction des types d’EN et une mesure de la précision.

MOTS-CLÉS : entité nommée ; expression régulière ; acquisition lexicale ; marqueur ; marqueur discursif ; moteur de recherche

Cerbah, Farid (2000). Une étude comparative de méthodes de catégorisation sémantique de termes techniques

RÉSUMÉ : L’acquisition et la mise à jour de ressources terminologiques sont des tâches difficiles, en particulier lorsque ces ressources contiennent des informations d’ordre sémantique. Cette article traite de la catégorisation sémantique de termes techniques. Le but de ce processus est d’assigner des domaines sémantiques à de nouveaux termes. Nous proposons deux approches qui reposent sur des sources d’informations différentes. L’approche exogène exploite des informations contextuelles extraites de corpus. L’approche endogène repose sur une analyse lexicale de termes déjà catégorisés. Nous décrivons les deux approches mises en oeuvre ainsi que les expérimentations menées sur des jeux de test significatifs. Les résultats obtenus montrent que la catégorisation de termes peut constituer une aide conséquente dans les processus d’acquisition de ressources terminologiques.

MOTS-CLÉS : acquisition de termes techniques ; terminologie ; analyse lexicale ; corpus

Danlos, Laurence ; Gaiffe, Bertrand (2000). Coréférence événementielle et relations de discours

RÉSUMÉ : La coréférence événementielle est un phénomène largement ignoré tant dans les travaux sur la coréférence que dans ceux sur l’ordre temporel dans le discours. Pourtant, la coréférence événementielle est la clef de voûte sur laquelle reposent au moins quatre types de discours. Les descriptions et analyses linguistiques de ces discours permettront de mettre en avant des phénomènes linguistiques inhabituels (e.g. coréférence entre éléments quantifiés existentiellement). Les relations de discours qui sont en jeu seront ensuite examinées. Cette étude nous amènera à introduire et définir de nouvelles relations de discours qui seront discutées dans le cadre de la SDRT.

MOTS-CLÉS : coréférence événementielle ; relation de discours ; relation de coréférence

de Chalendar, Gaël ; Grau, Brigitte (2000). SVETLAN’ ou Comment Classer des Noms en fonction de leur Contexte

RÉSUMÉ : L’utilisation de connaissances sémantiques dans les applications de TAL améliore leurs performances. Cependant, bien que des lexiques étendus aient été développés, il y a peu de ressources non dédiées à des domaines spécialisés et contenant des informations sémantiques pour les mots. Dans le but de construire une telle base, nous avons conçu le système SVETLAN’, capable d’apprendre des catégories de noms à partir de textes, quel que soit leur domaine. Dans le but d’éviter de créer des classes générales regroupant tous les sens des mots, les classes sont apprises en fonction de l’usage des mots en contexte.

MOTS-CLÉS : sémantique ; langue ; langue générale ; segment textuel ; module d’apprentissage

LIRE L’ARTICLE :

Etchegoyhen, Thierry (2000). Analyse Syntaxique Monotone par Décisions Différées

RÉSUMÉ : Dans cet article nous présentons une approche à l’analyse syntaxique automatique où la levée d’ambiguïtés est différée jusqu’à l’apparition d’éléments de la chaîne d’entrée permettant de procéder à une analyse correcte, la désambiguisation étant alors effectuée en cascade. L’analyseur a pour caractéristiques une croissance monotone de l’information syntaxique au fil de l’analyse, la garantie de ne pas échouer sur des phrases grammaticales telles les phrases-labyrinthe, et une faible complexité computationnelle. Le système présenté cumule ainsi les avantages d’une approche déterministe (efficacité et optimisation des calculs) et ceux d’une approche non-déterministe (adéquation empirique).

MOTS-CLÉS : analyse syntaxique ; analyse syntaxique monotone ; désambiguïsation ; désambiguïsation syntaxique ; levée d’ambiguïté structurelle

Ferret, Olivier ; Grau, Brigitte (2000). Une analyse thématique fondée sur un principe d’amorçage

RÉSUMÉ : L’analyse thématique est une étape importante pour de nombreuses applications en traitement automatique des langues, telles que le résumé ou l’extraction d’information par exemple. Elle ne peut être réalisée avec une bonne précision qu’en exploitant une source de connaissances structurées sur les thèmes, laquelle est difficile à constituer à une large échelle. Dans cet article, nous proposons de résoudre ce problème par un principe d’amorçage : une première analyse thématique, fondée sur l’utilisation d’une source de connaissances faiblement structurée mais relativement aisée à construire, un réseau de collocations, permet d’apprendre des représentations explicites de thèmes, appelées signatures thématiques. Ces dernières sont ensuite utilisées pour mettre en oeuvre une seconde analyse thématique, plus précise et plus fiable.

MOTS-CLÉS : analyse thématique ; cohésion lexicale ; focalisation ; réseau de collocations