TALN 2001


Abeillé, Anne ; Clément, Lionel ; Kinyon, Alexandra ; Toussenel, François (2001). Un corpus français arboré : quelques interrogations

RÉSUMÉ : Dans cet article nous présentons les premiers résultats de l’exploitation d’un Corpus français arboré (Abeillé et al., 2001). Le corpus comprend 1 million de mots entièrement annotés et validé pour les parties du discours, la morphologie, les mots composés et les lemmes, et partiellement annotés pour les constituants syntaxiques. Il comprend des extraits de journaux parus entre 1989 et 1993 et écrits par divers auteurs, et couvre différents thèmes (économie, littérature, politique, etc.). Après avoir expliqué comment ce corpus a été construit, et comment l’exploiter à l’aide d’un outil de recherche spécifique, nous exposerons quelques résultats linguistiques concernant les fréquences et les préférences lexicales et syntaxiques. Nous expliquerons pourquoi nous pensons que certains de ces résultats sont pertinents en linguistique théorique et en psycholinguistique.

MOTS-CLÉS : fréquence ; fréquence relative ; corpus ; corpus français ; groupe nominal ; catégorie grammaticale

LIRE L’ARTICLE  :


Amghar, Tassadit ; Battistelli, Delphine ; Charnois, Thierry (2001). Représenter le temps en langue dans le formalisme des graphes conceptuels une approche basée sur les schèmes sémantico-cognitifs

RÉSUMÉ : L’objectif de notre travail est de construire une représentation sémantique d’un corpus de textes français au sein des graphes conceptuels simples. Notre conceptualisation est fondée sur les Schèmes Sémantico-Cognitifs et la théorie aspecto-temporelle introduits par J. P. Desclés. Un texte est représenté par deux structures. La première modélise la représentation semanticocognitive des propositions du texte, et la seconde le diagramme temporel exprimant les contraintes temporelles entre les différentes situations décrites dans le texte. La prise en compte de ces deux structures et des liens qu’elles entretiennent nous a amenés à modifier le modèle des graphes conceptuels simples et à envisager les modes d’interaction entre temps, aspect (grammatical) et significations des lexèmes verbaux.

MOTS-CLÉS : graphe ; graphe conceptuel ; arbre ; corpus ; prédicat ; prédicat verbal ; information ; information temporelle

LIRE L’ARTICLE  :


Goulian, Jérôme ; Antoine, Jean-Yves (2001). Compréhension Automatique de la Parole combinant syntaxe locale et sémantique globale pour une CHM portant sur des tâches relativement complexes

RÉSUMÉ : Nous présentons dans cet article un système de Compréhension Automatique de la Parole (CAP) tentant de concilier les contraintes antinomiques de robustesse et d’analyse détaillée de la parole spontanée. Dans une première partie, nous montrons l’importance de la mise en oeuvre d’une CAP fine dans l’optique d’une Communication Homme-Machine (CHM) sur des tâches moyennement complexes. Nous présentons ensuite l’architecture de notre système qui repose sur une analyse en deux étapes : une première étape d’analyse syntaxique de surface (Shallow Parsing) générique suivie d’une seconde étape d’analyse sémantico-pragmatique - dépendante du domaine d’application - de la structure profonde de l’énoncé complet.

MOTS-CLÉS : tête ; tête lexicale ; syntaxe ; syntaxe locale ; grammaire ; grammaire de dépendance ; dialogue ; dialogue oral

LIRE L’ARTICLE  :


Auclerc, Nicolas ; Lepage, Yves (2001). Aides à l’analyse pour la construction de banque d’arbres : étude de l’effort

RÉSUMÉ : La construction de banque d’arbres est une entreprise lourde qui prend du temps. Pour faciliter cette construction, nous voyons la construction de banques d’arbres comme une série d’opérations d’édition et de recherche. Le but de cet article est d’estimer l’effort, en nombre d’opérations d’éditions, nécessaire pour ajouter une nouvelle phrase dans la banque d’arbres. Nous avons proposé un outil, Boardedit, qui inclut un éditeur d’arbres et des aides à l’analyse. Comme l’effort nécessaire dépend bien sûr de la qualité des réponses fournies par les aides à l’analyse, il peut être vue comme une mesure de la qualité de ces aides. L’éditeur d’arbres restant indispensable à notre outil pendant l’expérience, les aides à l’analyse seront donc toujours associées à l’éditeur d’arbres. Dans l’expérience proposée, nous augmentons une banque d’arbres de 5 OOO phrases par 1 553 nouvelles phrases. La réduction obtenue est supérieure aux 4/5 de l’effort.

MOTS-CLÉS : filtrage ; sous-arbre ; banque d’arbre ; édition d’arbre ; complétion par analogie

LIRE L’ARTICLE  :


Barthélemy, François ; Boullier, Pierre ; Deschamp, Philippe ; Kaouane, Linda ; Villemonte de la Clergerie, Éric (2001). Atelier ATOLL pour les grammaires d’arbres adjoints

RÉSUMÉ : Cet article présente l’environnement de travail que nous développons au sein de l’équipe ATOLL pour les grammaires d’arbres adjoints. Cet environnement comprend plusieurs outils et ressources fondés sur l’emploi du langage de balisage XML. Ce langage facilite la mise en forme et l’échange de ressources linguistiques.

MOTS-CLÉS : formalisme grammatical ; arbre ; tag ; arbre de dérivation ; grammaire ; langage ; langage de balisage

LIRE L’ARTICLE  :


Amghar, Tassadit ; Battistelli, Delphine ; Charnois, Thierry (2001). Représenter le temps en langue dans le formalisme des graphes conceptuels une approche basée sur les schèmes sémantico-cognitifs

RÉSUMÉ : L’objectif de notre travail est de construire une représentation sémantique d’un corpus de textes français au sein des graphes conceptuels simples. Notre conceptualisation est fondée sur les Schèmes Sémantico-Cognitifs et la théorie aspecto-temporelle introduits par J. P. Desclés. Un texte est représenté par deux structures. La première modélise la représentation semanticocognitive des propositions du texte, et la seconde le diagramme temporel exprimant les contraintes temporelles entre les différentes situations décrites dans le texte. La prise en compte de ces deux structures et des liens qu’elles entretiennent nous a amenés à modifier le modèle des graphes conceptuels simples et à envisager les modes d’interaction entre temps, aspect (grammatical) et significations des lexèmes verbaux.

MOTS-CLÉS : graphe ; graphe conceptuel ; arbre ; corpus ; prédicat ; prédicat verbal ; information ; information temporelle

LIRE L’ARTICLE  :


Besançon, Romaric ; Rozenknop, Antoine ; Chappelier, Jean-Cédric ; Rajman, Martin (2001). Intégration probabiliste de sens dans la représentation de textes-

RÉSUMÉ : Le sujet du présent article est l’intégration des sens portés par les mots en contexte dans une représentation vectorielle de textes, au moyen d’un modèle probabiliste. La représentation vectorielle considérée est le modèle DSIR, qui étend le modèle vectoriel (VS) standard en tenant compte à la fois des occurrences et des co-occurrences de mots dans les documents. L’intégration des sens dans cette représentation se fait à l’aide d’un modèle de Champ de Markov avec variables cachées, en utilisant une information sémantique dérivée de relations de synonymie extraites d’un dictionnaire de synonymes.

MOTS-CLÉS : sémantique ; sémantique distributionnelle ; espace vectoriel ; terme ; terme d’indexation ; synonymie ; fréquence


Biskri, Ismaïl ; Delisle, Sylvain (2001). Les n-grams de caractères pour l’aide à l’extraction de connaissances dans des bases de données textuelles multilingues

RÉSUMÉ : Une véritable classification numérique multilingue est impossible si on considère seulement le mot comme unité d’information privilégiée. En traitant les mots comme jetons, la tokenisation s’avère relativement simple pour le français et l’anglais, mais très difficile pour des langues comme l’allemand ou l’arabe. D’autre part, la lemmatisation utilisée comme moyen de normalisation et de réduction du lexique constitue un écueil non moins négligeable. La notion de n-grams, qui depuis une décennie donne de bons résultats dans l’identification de la langue ou dans l’analyse de l’oral, est, par les recherches récentes, devenue un axe privilégié dans l’acquisition et l’extraction des connaissances dans les textes. Dans cet article, nous présenterons un outil de classification numérique basé sur le concept de n-grams de caractères. Nous évaluons aussi les résultats de cet outil que nous comparons à des résultats obtenus au moyen d’une classification fondée sur des mots.

MOTS-CLÉS : extraction de connaissances ; n-grams ; fréquence ; lemmatisation ; lexique

LIRE L’ARTICLE  :


Blache, Philippe (2001). Dépendances à distance dans les grammaires de propriétés : l’exemple des disloquées

RÉSUMÉ : Cet article propose une description des dépendances à distances s’appuyant sur une approche totalement déclarative, les grammaires de propriétés, décrivant l’information linguistique sous la forme de contraintes. L’approche décrite ici consiste à introduire de façon dynamique en cours d’analyse de nouvelles contraintes, appelées propriétés distantes. Cette notion est illustrée par la description du phénomène des disloquées en français.

MOTS-CLÉS : verbe ; verbe recteur ; construction disloquée ; grammaire ; grammaire de propriétés ; dépendance ; dépendance à distance ; graphe ; graphe de contrainte ; relation de constituance

LIRE L’ARTICLE  :


Bouchou, Béatrice ; Lerat, Julien ; Maurel, Denis (2001). L’interrogation de bases de données comme application des classes d’objets

RÉSUMÉ : En travaillant sur l’interrogation de bases de données en langue naturelle, nous sommes amenés à exploiter les propositions du Laboratoire de Linguistique Informatique (LLI) en matière de représentation de la langue : les classes d’objets. Un outil d’interrogation définit une application du langage vers le modèle de l’information stockée. Ici les classes d’objets et leurs prédicats appropriés modélisent le langage source, tandis que le modèle relationnel sert pour les données interrogées. Nous présentons d’abord ce contexte d’application, puis comment nous utilisons les classes d’objets et prédicats appropriés dans ce cadre.

MOTS-CLÉS : prédicat ; base de données ; langue ; langue naturelle ; modèle conceptuel ; classe d’objets

LIRE L’ARTICLE  :


Barthélemy, François ; Boullier, Pierre ; Deschamp, Philippe ; Kaouane, Linda ; Villemonte de la Clergerie, Éric (2001). Atelier ATOLL pour les grammaires d’arbres adjoints

RÉSUMÉ : Cet article présente l’environnement de travail que nous développons au sein de l’équipe ATOLL pour les grammaires d’arbres adjoints. Cet environnement comprend plusieurs outils et ressources fondés sur l’emploi du langage de balisage XML. Ce langage facilite la mise en forme et l’échange de ressources linguistiques.

MOTS-CLÉS : formalisme grammatical ; arbre ; tag ; arbre de dérivation ; grammaire ; langage ; langage de balisage

LIRE L’ARTICLE  :


Campione, Estelle ; Véronis, Jean (2001). Etiquetage prosodique semi-automatique des corpus oraux

RÉSUMÉ : La transcription manuelle de la prosodie est une tâche extrêmement coûteuse en temps, qui requiert des annotateurs très spécialisés, et qui est sujette à de multiples erreurs et une grande part de subjectivité. Une automatisation complète n’est pas envisageable dans l’état actuel de Ia technologie, mais nous présentons dans cette communication des outils et une méthodologie qui permettent une réduction substantielle du temps d’intervention manuelle, et améliorent l’objectivité et la cohérence du résultat. De plus, les étapes manuelles nécessaires ne demandent pas une expertise phonétique poussée et peuvent être menées à bien par des étudiants et des linguistes de corpus.

MOTS-CLÉS : corpus ; corpus oral ; intonation ; segment ; étiquetage ; marque d’hésitation

LIRE L’ARTICLE  :


Besançon, Romaric ; Rozenknop, Antoine ; Chappelier, Jean-Cédric ; Rajman, Martin (2001). Intégration probabiliste de sens dans la représentation de textes-

RÉSUMÉ : Le sujet du présent article est l’intégration des sens portés par les mots en contexte dans une représentation vectorielle de textes, au moyen d’un modèle probabiliste. La représentation vectorielle considérée est le modèle DSIR, qui étend le modèle vectoriel (VS) standard en tenant compte à la fois des occurrences et des co-occurrences de mots dans les documents. L’intégration des sens dans cette représentation se fait à l’aide d’un modèle de Champ de Markov avec variables cachées, en utilisant une information sémantique dérivée de relations de synonymie extraites d’un dictionnaire de synonymes.

MOTS-CLÉS : sémantique ; sémantique distributionnelle ; espace vectoriel ; terme ; terme d’indexation ; synonymie ; fréquence


Chappelier, Jean-Cédric ; Rajman, Martin (2001). Grammaire à substitution d’arbre de complexité polynomiale : un cadre efficace pour DOP-

RÉSUMÉ : Trouver l’arbre d’analyse le plus probable dans le cadre du modèle DOP (Data-Oriented Parsing) _une version probabiliste de grammaire à substitution d’arbres développée par R. Bod (1992) _ est connu pour être un problème NP-difficile dans le cas le plus général (Sima’an, 1996a). Cependant, si l’on introduit des restrictions a priori sur le choix des arbres élémentaires, on peut obtenir des instances particulières de DOP pour lesquelles la recherche de l’arbre d’analyse le plus probable peut être effectuée en un temps polynomial (par rapport à la taille de la phrase à analyser). La présente contribution se propose d’étudier une telle instance polynomiale de DOP, fondée sur le principe de sélection miminale-maximale et d’en évaluer les performances sur deux corpus différents.

MOTS-CLÉS : complexité polynomiale ; arbre ; arbre d’analyse ; grammaire ; grammaire hors-contexte ; corpus

LIRE L’ARTICLE  :


Amghar, Tassadit ; Battistelli, Delphine ; Charnois, Thierry (2001). Représenter le temps en langue dans le formalisme des graphes conceptuels une approche basée sur les schèmes sémantico-cognitifs

RÉSUMÉ : L’objectif de notre travail est de construire une représentation sémantique d’un corpus de textes français au sein des graphes conceptuels simples. Notre conceptualisation est fondée sur les Schèmes Sémantico-Cognitifs et la théorie aspecto-temporelle introduits par J. P. Desclés. Un texte est représenté par deux structures. La première modélise la représentation semanticocognitive des propositions du texte, et la seconde le diagramme temporel exprimant les contraintes temporelles entre les différentes situations décrites dans le texte. La prise en compte de ces deux structures et des liens qu’elles entretiennent nous a amenés à modifier le modèle des graphes conceptuels simples et à envisager les modes d’interaction entre temps, aspect (grammatical) et significations des lexèmes verbaux.

MOTS-CLÉS : graphe ; graphe conceptuel ; arbre ; corpus ; prédicat ; prédicat verbal ; information ; information temporelle

LIRE L’ARTICLE  :


Chuah, Choy-Kim (2001). Aggregation by Conflation of Quasi-Synonymous Units

RÉSUMÉ : La plupart du temps, les études qui portent sur l’agrégation des phrases en génération de texte, se focalisent sur l’utilisation des connecteurs pour relier les phrases courtes et inventées. Mais, les connecteurs limitent le nombre des unités qu’il est possible de combiner à la fois. Comment condenser l’information en peu d’unités, sans utiliser trop de connecteurs ? Cette étude porte sur des documents ayant trait à la biologie et discute de l’agrégation des phrases par les auteurs quand ils résument. Cet article présente aussi quelques préalables et difficultés pour un système de résumé automatique. Beaucoup de phrases sont agrégées sans signe explicite, ni connecteur, ni ponctuation.

MOTS-CLÉS : résumé ; résumé automatique ; phrase ; synonymie

LIRE L’ARTICLE  :


Abeillé, Anne ; Clément, Lionel ; Kinyon, Alexandra ; Toussenel, François (2001). Un corpus français arboré : quelques interrogations

RÉSUMÉ : Dans cet article nous présentons les premiers résultats de l’exploitation d’un Corpus français arboré (Abeillé et al., 2001). Le corpus comprend 1 million de mots entièrement annotés et validé pour les parties du discours, la morphologie, les mots composés et les lemmes, et partiellement annotés pour les constituants syntaxiques. Il comprend des extraits de journaux parus entre 1989 et 1993 et écrits par divers auteurs, et couvre différents thèmes (économie, littérature, politique, etc.). Après avoir expliqué comment ce corpus a été construit, et comment l’exploiter à l’aide d’un outil de recherche spécifique, nous exposerons quelques résultats linguistiques concernant les fréquences et les préférences lexicales et syntaxiques. Nous expliquerons pourquoi nous pensons que certains de ces résultats sont pertinents en linguistique théorique et en psycholinguistique.

MOTS-CLÉS : fréquence ; fréquence relative ; corpus ; corpus français ; groupe nominal ; catégorie grammaticale

LIRE L’ARTICLE  :


Fougeron, Cécile ; Goldman, Jean-Philippe ; Dart, Alicia ; Guélat, Laurence ; Jeager, Clémentine (2001). Influence de facteurs stylistiques, syntaxiques et lexicaux sur la réalisation de la liaison en français

RÉSUMÉ : Les nombreuses recherches portant sur le phénomène de la liaison en français ont pu mettre en évidence l’influence de divers paramètres linguistiques et para-linguistiques sur la réalisation des liaisons. Notre contribution vise à déterminer la contribution relative de certains de ces facteurs en tirant parti d’une méthodologie robuste ainsi que d’outils de traitement automatique du langage. A partir d’un corpus de 5h de parole produit par 10 locuteurs, nous étudions les effets du style de parole (lecture oralisée/parole spontanée), du débit de parole (lecture normale/rapide), ainsi que la contribution de facteurs syntaxiques et lexicaux (longueur et fréquence lexicale) sur la réalisation de la liaison. Les résultats montrent que si plusieurs facteurs étudiés prédisent certaines liaisons, ces facteurs sont souvent interdépendants et ne permettent pas de modéliser avec exactitude la réalisation des liaisons.

MOTS-CLÉS : liaison ; lecture ; spontané ; débit de parole ; longueur ; fréquence ; fréquence lexicale

LIRE L’ARTICLE  :


Biskri, Ismaïl ; Delisle, Sylvain (2001). Les n-grams de caractères pour l’aide à l’extraction de connaissances dans des bases de données textuelles multilingues

RÉSUMÉ : Une véritable classification numérique multilingue est impossible si on considère seulement le mot comme unité d’information privilégiée. En traitant les mots comme jetons, la tokenisation s’avère relativement simple pour le français et l’anglais, mais très difficile pour des langues comme l’allemand ou l’arabe. D’autre part, la lemmatisation utilisée comme moyen de normalisation et de réduction du lexique constitue un écueil non moins négligeable. La notion de n-grams, qui depuis une décennie donne de bons résultats dans l’identification de la langue ou dans l’analyse de l’oral, est, par les recherches récentes, devenue un axe privilégié dans l’acquisition et l’extraction des connaissances dans les textes. Dans cet article, nous présenterons un outil de classification numérique basé sur le concept de n-grams de caractères. Nous évaluons aussi les résultats de cet outil que nous comparons à des résultats obtenus au moyen d’une classification fondée sur des mots.

MOTS-CLÉS : extraction de connaissances ; n-grams ; fréquence ; lemmatisation ; lexique

LIRE L’ARTICLE  :


Barthélemy, François ; Boullier, Pierre ; Deschamp, Philippe ; Kaouane, Linda ; Villemonte de la Clergerie, Éric (2001). Atelier ATOLL pour les grammaires d’arbres adjoints

RÉSUMÉ : Cet article présente l’environnement de travail que nous développons au sein de l’équipe ATOLL pour les grammaires d’arbres adjoints. Cet environnement comprend plusieurs outils et ressources fondés sur l’emploi du langage de balisage XML. Ce langage facilite la mise en forme et l’échange de ressources linguistiques.

MOTS-CLÉS : formalisme grammatical ; arbre ; tag ; arbre de dérivation ; grammaire ; langage ; langage de balisage

LIRE L’ARTICLE  :


Ferret, Olivier ; Grau, Brigitte ; Hurault-Plantet, Martine ; Illouz, Gabriel ; Jacquemin, Christian (2001). Utilisation des entités nommées et des variantes terminologiques dans un système de question-réponse

RÉSUMÉ : Nous présentons dans cet article le système QALC qui a participé à la tâche Question Answering de la conférence d’évaluation TREC. Ce système repose sur un ensemble de modules de Traitement Automatique des Langues (TAL) intervenant essentiellement en aval d’un moteur de recherche opérant sur un vaste ensemble de documents : typage des questions, reconnaissance des entités nommées, extraction et reconnaissance de termes, simples et complexes, et de leurs variantes. Ces traitements permettent soit de mieux sélectionner ces documents, soit de décider quelles sont les phrases susceptibles de contenir la réponse à une question.

MOTS-CLÉS : entité nommée ; terminologie ; extraction de termes ; système de question-réponse ; module d’appariement

LIRE L’ARTICLE  :


Ferret, Olivier ; Grau, Brigitte ; Minel, Jean-Luc ; Porhiel, Sylvie (2001). Repérage de structures thématiques dans des textes

RÉSUMÉ : Afin d’améliorer les performances des systèmes de résumé automatique ou de filtrage sémantique concernant la prise en charge de la cohérence thématique, nous proposons un modèle faisant collaborer une méthode d’analyse statistique qui identifie les ruptures thématiques avec un système d’analyse linguistique qui identifie les cadres de discours.

MOTS-CLÉS : exploration contextuelle ; unité textuelle ; valeur de cohésion ; segment

LIRE L’ARTICLE  :


Fougeron, Cécile ; Goldman, Jean-Philippe ; Dart, Alicia ; Guélat, Laurence ; Jeager, Clémentine (2001). Influence de facteurs stylistiques, syntaxiques et lexicaux sur la réalisation de la liaison en français

RÉSUMÉ : Les nombreuses recherches portant sur le phénomène de la liaison en français ont pu mettre en évidence l’influence de divers paramètres linguistiques et para-linguistiques sur la réalisation des liaisons. Notre contribution vise à déterminer la contribution relative de certains de ces facteurs en tirant parti d’une méthodologie robuste ainsi que d’outils de traitement automatique du langage. A partir d’un corpus de 5h de parole produit par 10 locuteurs, nous étudions les effets du style de parole (lecture oralisée/parole spontanée), du débit de parole (lecture normale/rapide), ainsi que la contribution de facteurs syntaxiques et lexicaux (longueur et fréquence lexicale) sur la réalisation de la liaison. Les résultats montrent que si plusieurs facteurs étudiés prédisent certaines liaisons, ces facteurs sont souvent interdépendants et ne permettent pas de modéliser avec exactitude la réalisation des liaisons.

MOTS-CLÉS : liaison ; lecture ; spontané ; débit de parole ; longueur ; fréquence ; fréquence lexicale

LIRE L’ARTICLE  :


Friburger, Nathalie ; Maurel, Denis (2001). Elaboration d’une cascade de transducteurs pour l’extraction des noms de personnes dans les textes

RÉSUMÉ : Cet article décrit une cascade de transducteurs pour l’extraction de noms propres dans des textes. Après une phase de pré-traitement (découpage du texte en phrases, étiquetage à l’aide de dictionnaires), une série de transducteurs sont appliqués les uns après les autres sur le texte et permettent de repérer, dans les contextes gauches et droits des éléments "déclencheurs" qui signalent la présence d’un nom de personne. Une évaluation sur un corpus journalistique journal Le Monde) fait apparaître un taux de précision de 98,7% pour un taux de rappel de 91,9%.

MOTS-CLÉS : patronyme ; transducteur ; extraction ; extraction ; extraction de noms ; cascade de transducteur

LIRE L’ARTICLE  :


Ganascia, Jean-Gabriel (2001). Extraction automatique de motifs syntaxiques

RÉSUMÉ : Cet article présente un nouvel algorithme de détection de motifs syntaxiques récurrents dans les textes écrits en langage naturel. Il décrit d’abord l’algorithme d’extraction fondé sur un modèle d’édition généralisé à des arbres stratifiés ordonnés (ASO). Il décrit ensuite les expérimentations qui valident l’approche préconisée sur des textes de la littérature française classique des XVIIIe et XIXe siècle. Une sous-partie est consacrée à l’évaluation empirique de la complexité algorithmique. La dernière sous-partie donnera quelques exemples de motifs récurrents typiques d’un auteur du XVIIIe siècle, Madame de Lafayette.

MOTS-CLÉS : langage ; langage naturel ; arbre ; appariement ; graphe ; graphe de similarité ; syntaxe

LIRE L’ARTICLE  :


Fougeron, Cécile ; Goldman, Jean-Philippe ; Dart, Alicia ; Guélat, Laurence ; Jeager, Clémentine (2001). Influence de facteurs stylistiques, syntaxiques et lexicaux sur la réalisation de la liaison en français

RÉSUMÉ : Les nombreuses recherches portant sur le phénomène de la liaison en français ont pu mettre en évidence l’influence de divers paramètres linguistiques et para-linguistiques sur la réalisation des liaisons. Notre contribution vise à déterminer la contribution relative de certains de ces facteurs en tirant parti d’une méthodologie robuste ainsi que d’outils de traitement automatique du langage. A partir d’un corpus de 5h de parole produit par 10 locuteurs, nous étudions les effets du style de parole (lecture oralisée/parole spontanée), du débit de parole (lecture normale/rapide), ainsi que la contribution de facteurs syntaxiques et lexicaux (longueur et fréquence lexicale) sur la réalisation de la liaison. Les résultats montrent que si plusieurs facteurs étudiés prédisent certaines liaisons, ces facteurs sont souvent interdépendants et ne permettent pas de modéliser avec exactitude la réalisation des liaisons.

MOTS-CLÉS : liaison ; lecture ; spontané ; débit de parole ; longueur ; fréquence ; fréquence lexicale

LIRE L’ARTICLE  :


Goulian, Jérôme ; Antoine, Jean-Yves (2001). Compréhension Automatique de la Parole combinant syntaxe locale et sémantique globale pour une CHM portant sur des tâches relativement complexes

RÉSUMÉ : Nous présentons dans cet article un système de Compréhension Automatique de la Parole (CAP) tentant de concilier les contraintes antinomiques de robustesse et d’analyse détaillée de la parole spontanée. Dans une première partie, nous montrons l’importance de la mise en oeuvre d’une CAP fine dans l’optique d’une Communication Homme-Machine (CHM) sur des tâches moyennement complexes. Nous présentons ensuite l’architecture de notre système qui repose sur une analyse en deux étapes : une première étape d’analyse syntaxique de surface (Shallow Parsing) générique suivie d’une seconde étape d’analyse sémantico-pragmatique - dépendante du domaine d’application - de la structure profonde de l’énoncé complet.

MOTS-CLÉS : tête ; tête lexicale ; syntaxe ; syntaxe locale ; grammaire ; grammaire de dépendance ; dialogue ; dialogue oral

LIRE L’ARTICLE  :


Ferret, Olivier ; Grau, Brigitte ; Hurault-Plantet, Martine ; Illouz, Gabriel ; Jacquemin, Christian (2001). Utilisation des entités nommées et des variantes terminologiques dans un système de question-réponse

RÉSUMÉ : Nous présentons dans cet article le système QALC qui a participé à la tâche Question Answering de la conférence d’évaluation TREC. Ce système repose sur un ensemble de modules de Traitement Automatique des Langues (TAL) intervenant essentiellement en aval d’un moteur de recherche opérant sur un vaste ensemble de documents : typage des questions, reconnaissance des entités nommées, extraction et reconnaissance de termes, simples et complexes, et de leurs variantes. Ces traitements permettent soit de mieux sélectionner ces documents, soit de décider quelles sont les phrases susceptibles de contenir la réponse à une question.

MOTS-CLÉS : entité nommée ; terminologie ; extraction de termes ; système de question-réponse ; module d’appariement

LIRE L’ARTICLE  :


Ferret, Olivier ; Grau, Brigitte ; Minel, Jean-Luc ; Porhiel, Sylvie (2001). Repérage de structures thématiques dans des textes

RÉSUMÉ : Afin d’améliorer les performances des systèmes de résumé automatique ou de filtrage sémantique concernant la prise en charge de la cohérence thématique, nous proposons un modèle faisant collaborer une méthode d’analyse statistique qui identifie les ruptures thématiques avec un système d’analyse linguistique qui identifie les cadres de discours.

MOTS-CLÉS : exploration contextuelle ; unité textuelle ; valeur de cohésion ; segment

LIRE L’ARTICLE  :


Fougeron, Cécile ; Goldman, Jean-Philippe ; Dart, Alicia ; Guélat, Laurence ; Jeager, Clémentine (2001). Influence de facteurs stylistiques, syntaxiques et lexicaux sur la réalisation de la liaison en français

RÉSUMÉ : Les nombreuses recherches portant sur le phénomène de la liaison en français ont pu mettre en évidence l’influence de divers paramètres linguistiques et para-linguistiques sur la réalisation des liaisons. Notre contribution vise à déterminer la contribution relative de certains de ces facteurs en tirant parti d’une méthodologie robuste ainsi que d’outils de traitement automatique du langage. A partir d’un corpus de 5h de parole produit par 10 locuteurs, nous étudions les effets du style de parole (lecture oralisée/parole spontanée), du débit de parole (lecture normale/rapide), ainsi que la contribution de facteurs syntaxiques et lexicaux (longueur et fréquence lexicale) sur la réalisation de la liaison. Les résultats montrent que si plusieurs facteurs étudiés prédisent certaines liaisons, ces facteurs sont souvent interdépendants et ne permettent pas de modéliser avec exactitude la réalisation des liaisons.

MOTS-CLÉS : liaison ; lecture ; spontané ; débit de parole ; longueur ; fréquence ; fréquence lexicale

LIRE L’ARTICLE  :


Hamon, Thierry ; Nazarenko, Adeline (2001). Exploitation de l’expertise humaine dans un processus de constitution de terminologie

RÉSUMÉ : Le processus de construction de terminologie ne peut être entièrement automatisé. Les méthodes et des outils de la terminologie computationnelle permettent de prendre en charge une partie de la tâche, mais l’expertise humaine garde une place prépondérant. Le défi pour les outils terminologiques est de dégrossir les tâches qui sont soit trop longues soit trop complexes pour l’utilisateur tout en permettant à ce dernier d’intégrer ses propres connaissances spécialisées et en lui laissant le contrôle sur la terminologie à construire. Nous montrons ici comment le rôle de cette expertise est pris en compte dans SynoTerm, l’outil d’acquisition de relation de synonymie entre termes que nous avons développé.

MOTS-CLÉS : ressource lexicale ; langue ; langue générale ; candidat-terme ; acquisition de relations terminologiques

LIRE L’ARTICLE  :


Hathout, Nabil (2001). Analogies morpho-synonymiques. Une méthode d’acquisition automatique de liens morphologiques à partir d’un dictionnaire de synonymes

RÉSUMÉ : Cet article présente une méthode de construction automatique de liens morphologiques à partir d’un dictionnaire de synonymes. Une analyse de ces liens met en lumière certains aspects de la structure morphologique du lexique dont on peut tirer partie pour identifier les variations allomorphiques des suffixations extraites.

MOTS-CLÉS : langue ; langue générale ; appariement ; signature d’analogies ; morphologie

LIRE L’ARTICLE  :


Ferret, Olivier ; Grau, Brigitte ; Hurault-Plantet, Martine ; Illouz, Gabriel ; Jacquemin, Christian (2001). Utilisation des entités nommées et des variantes terminologiques dans un système de question-réponse

RÉSUMÉ : Nous présentons dans cet article le système QALC qui a participé à la tâche Question Answering de la conférence d’évaluation TREC. Ce système repose sur un ensemble de modules de Traitement Automatique des Langues (TAL) intervenant essentiellement en aval d’un moteur de recherche opérant sur un vaste ensemble de documents : typage des questions, reconnaissance des entités nommées, extraction et reconnaissance de termes, simples et complexes, et de leurs variantes. Ces traitements permettent soit de mieux sélectionner ces documents, soit de décider quelles sont les phrases susceptibles de contenir la réponse à une question.

MOTS-CLÉS : entité nommée ; terminologie ; extraction de termes ; système de question-réponse ; module d’appariement

LIRE L’ARTICLE  :


Ferret, Olivier ; Grau, Brigitte ; Hurault-Plantet, Martine ; Illouz, Gabriel ; Jacquemin, Christian (2001). Utilisation des entités nommées et des variantes terminologiques dans un système de question-réponse

RÉSUMÉ : Nous présentons dans cet article le système QALC qui a participé à la tâche Question Answering de la conférence d’évaluation TREC. Ce système repose sur un ensemble de modules de Traitement Automatique des Langues (TAL) intervenant essentiellement en aval d’un moteur de recherche opérant sur un vaste ensemble de documents : typage des questions, reconnaissance des entités nommées, extraction et reconnaissance de termes, simples et complexes, et de leurs variantes. Ces traitements permettent soit de mieux sélectionner ces documents, soit de décider quelles sont les phrases susceptibles de contenir la réponse à une question.

MOTS-CLÉS : entité nommée ; terminologie ; extraction de termes ; système de question-réponse ; module d’appariement

LIRE L’ARTICLE  :


Ferret, Olivier ; Grau, Brigitte ; Hurault-Plantet, Martine ; Illouz, Gabriel ; Jacquemin, Christian (2001). Utilisation des entités nommées et des variantes terminologiques dans un système de question-réponse

RÉSUMÉ : Nous présentons dans cet article le système QALC qui a participé à la tâche Question Answering de la conférence d’évaluation TREC. Ce système repose sur un ensemble de modules de Traitement Automatique des Langues (TAL) intervenant essentiellement en aval d’un moteur de recherche opérant sur un vaste ensemble de documents : typage des questions, reconnaissance des entités nommées, extraction et reconnaissance de termes, simples et complexes, et de leurs variantes. Ces traitements permettent soit de mieux sélectionner ces documents, soit de décider quelles sont les phrases susceptibles de contenir la réponse à une question.

MOTS-CLÉS : entité nommée ; terminologie ; extraction de termes ; système de question-réponse ; module d’appariement

LIRE L’ARTICLE  :


Fougeron, Cécile ; Goldman, Jean-Philippe ; Dart, Alicia ; Guélat, Laurence ; Jeager, Clémentine (2001). Influence de facteurs stylistiques, syntaxiques et lexicaux sur la réalisation de la liaison en français

RÉSUMÉ : Les nombreuses recherches portant sur le phénomène de la liaison en français ont pu mettre en évidence l’influence de divers paramètres linguistiques et para-linguistiques sur la réalisation des liaisons. Notre contribution vise à déterminer la contribution relative de certains de ces facteurs en tirant parti d’une méthodologie robuste ainsi que d’outils de traitement automatique du langage. A partir d’un corpus de 5h de parole produit par 10 locuteurs, nous étudions les effets du style de parole (lecture oralisée/parole spontanée), du débit de parole (lecture normale/rapide), ainsi que la contribution de facteurs syntaxiques et lexicaux (longueur et fréquence lexicale) sur la réalisation de la liaison. Les résultats montrent que si plusieurs facteurs étudiés prédisent certaines liaisons, ces facteurs sont souvent interdépendants et ne permettent pas de modéliser avec exactitude la réalisation des liaisons.

MOTS-CLÉS : liaison ; lecture ; spontané ; débit de parole ; longueur ; fréquence ; fréquence lexicale

LIRE L’ARTICLE  :


Barthélemy, François ; Boullier, Pierre ; Deschamp, Philippe ; Kaouane, Linda ; Villemonte de la Clergerie, Éric (2001). Atelier ATOLL pour les grammaires d’arbres adjoints

RÉSUMÉ : Cet article présente l’environnement de travail que nous développons au sein de l’équipe ATOLL pour les grammaires d’arbres adjoints. Cet environnement comprend plusieurs outils et ressources fondés sur l’emploi du langage de balisage XML. Ce langage facilite la mise en forme et l’échange de ressources linguistiques.

MOTS-CLÉS : formalisme grammatical ; arbre ; tag ; arbre de dérivation ; grammaire ; langage ; langage de balisage

LIRE L’ARTICLE  :


Abeillé, Anne ; Clément, Lionel ; Kinyon, Alexandra ; Toussenel, François (2001). Un corpus français arboré : quelques interrogations

RÉSUMÉ : Dans cet article nous présentons les premiers résultats de l’exploitation d’un Corpus français arboré (Abeillé et al., 2001). Le corpus comprend 1 million de mots entièrement annotés et validé pour les parties du discours, la morphologie, les mots composés et les lemmes, et partiellement annotés pour les constituants syntaxiques. Il comprend des extraits de journaux parus entre 1989 et 1993 et écrits par divers auteurs, et couvre différents thèmes (économie, littérature, politique, etc.). Après avoir expliqué comment ce corpus a été construit, et comment l’exploiter à l’aide d’un outil de recherche spécifique, nous exposerons quelques résultats linguistiques concernant les fréquences et les préférences lexicales et syntaxiques. Nous expliquerons pourquoi nous pensons que certains de ces résultats sont pertinents en linguistique théorique et en psycholinguistique.

MOTS-CLÉS : fréquence ; fréquence relative ; corpus ; corpus français ; groupe nominal ; catégorie grammaticale

LIRE L’ARTICLE  :


Lafourcade, Mathieu ; Prince, Violaine (2001). Synonymies et vecteurs conceptuels

RÉSUMÉ : La synonymie est une relation importante en TAL mais qui reste problématique. La distinction entre synonymie relative et synonymie subjective permet de contourner certaines difficultés. Dans le cadre des vecteurs conceptuels, il est alors possible de définir formellement des fonctions de test de synonymie et d’en expérimenter l’usage.

MOTS-CLÉS : synonymie ; vecteur ; vecteur conceptuel ; recherche d’information ; segment textuel

LIRE L’ARTICLE  :


Langlais, Philippe ; Simard, Michel (2001). Récupération de segments sous-phrastiques dans une mémoire de traduction-

RÉSUMÉ : L’utilité des outils d’aide à la traduction reposant sur les mémoires de traduction est souvent limitée par la nature des segments que celles-ci mettent en correspondance, le plus souvent des phrases entières. Cet article examine le potentiel d’un type de système qui serait en mesure de récupérer la traduction de séquences de mots de longueur arbitraire.

MOTS-CLÉS : traduction ; séquence de mots ; segment ; corpus

LIRE L’ARTICLE  :


Lebarbé, Thomas (2001). Vers une plate-forme multi-agents pour l’exploration et le traitement linguistiques

RÉSUMÉ : Dans cet article, nous proposons une plate-forme multi-agents pour l’expérimentation et le traitement linguistique. Après une description du modèle d’agent APA, nous présentons l’état actuel de nos travaux : une implémentation en système multi-agents de l’analyse syntaxique selon le paradigme des grammaires de dépendances en chunk. Nous montrons ensuite d’autres possibilités d’implémentation selon d’autres paradigmes syntaxiques mais aussi au delà de la simple syntaxe.

MOTS-CLÉS : chunk ; grammaire ; grammaire de dépendance ; arbre ; agent de compétence ; agent d’observation ; système multi-agents ; syntaxe ; analyse syntaxique ; environnement

LIRE L’ARTICLE  :


Auclerc, Nicolas ; Lepage, Yves (2001). Aides à l’analyse pour la construction de banque d’arbres : étude de l’effort

RÉSUMÉ : La construction de banque d’arbres est une entreprise lourde qui prend du temps. Pour faciliter cette construction, nous voyons la construction de banques d’arbres comme une série d’opérations d’édition et de recherche. Le but de cet article est d’estimer l’effort, en nombre d’opérations d’éditions, nécessaire pour ajouter une nouvelle phrase dans la banque d’arbres. Nous avons proposé un outil, Boardedit, qui inclut un éditeur d’arbres et des aides à l’analyse. Comme l’effort nécessaire dépend bien sûr de la qualité des réponses fournies par les aides à l’analyse, il peut être vue comme une mesure de la qualité de ces aides. L’éditeur d’arbres restant indispensable à notre outil pendant l’expérience, les aides à l’analyse seront donc toujours associées à l’éditeur d’arbres. Dans l’expérience proposée, nous augmentons une banque d’arbres de 5 OOO phrases par 1 553 nouvelles phrases. La réduction obtenue est supérieure aux 4/5 de l’effort.

MOTS-CLÉS : filtrage ; sous-arbre ; banque d’arbre ; édition d’arbre ; complétion par analogie

LIRE L’ARTICLE  :


Bouchou, Béatrice ; Lerat, Julien ; Maurel, Denis (2001). L’interrogation de bases de données comme application des classes d’objets

RÉSUMÉ : En travaillant sur l’interrogation de bases de données en langue naturelle, nous sommes amenés à exploiter les propositions du Laboratoire de Linguistique Informatique (LLI) en matière de représentation de la langue : les classes d’objets. Un outil d’interrogation définit une application du langage vers le modèle de l’information stockée. Ici les classes d’objets et leurs prédicats appropriés modélisent le langage source, tandis que le modèle relationnel sert pour les données interrogées. Nous présentons d’abord ce contexte d’application, puis comment nous utilisons les classes d’objets et prédicats appropriés dans ce cadre.

MOTS-CLÉS : prédicat ; base de données ; langue ; langue naturelle ; modèle conceptuel ; classe d’objets

LIRE L’ARTICLE  :


Luc, Christophe (2001). Une typologie des énumérations basée sur les structures rhétoriques et architecturales du texte

RÉSUMÉ : Cet article concerne la caractérisation et la représentation de la structure interne des énumérations.Pour ce faire, nous utilisons deux modèles de texte : d’une part la Théorie des Structures Rhétoriques (RST) qui fournit un cadre d’interprétation pour la structure discursive des textes et d’autre part le modèle de représentation de l’architecture textuelle qui est principalement dédié à l’étude et à la représentation des structures visuelles des textes. Après une brève présentation des modèles, nous nous concentrons sur l’étude de l’objet "énumérations". Nous exhibons et commentons trois exemples d’énumérations spécifiques que nous appelons des énumérations non-parallèles. Nous analysons la structure de ces énumérations et proposons un principe de composition des modèles de référence pour représenter ces énumérations. Enfin, nous présentons une classification des énumérations s’appuyant sur les caractéristiques de ces modèles.

MOTS-CLÉS : relation de dépendance ; structure textuelle ; modèle de référence ; modèle de représentation

LIRE L’ARTICLE  :


Maniez, François (2001). Désambiguïsation syntaxique des groupes nominaux en anglais médical : étude des structures adjectivales à partir d’un corpus bilingue.

RÉSUMÉ : L’ambiguïté syntaxique constitue un problème particulièrement délicat à résoudre pour les analyseurs morphosyntaxiques des logiciels d’aide à la traduction, en particulier dans le cas des longs groupes nominaux typiques des langues de spécialité. En utilisant un corpus bilingue d’articles médicaux anglais traduits vers le français, nous examinons divers moyens de résoudre l’ambiguïté du rattachement de l’adjectif à l’un des deux noms qui le suivent dans les tournures anglaises de forme adjectif-nom-nom.

MOTS-CLÉS : groupe nominal ; langue médicale ; traduction ; désambiguïsation ; langue ; langue de spécialité

LIRE L’ARTICLE  :


Bouchou, Béatrice ; Lerat, Julien ; Maurel, Denis (2001). L’interrogation de bases de données comme application des classes d’objets

RÉSUMÉ : En travaillant sur l’interrogation de bases de données en langue naturelle, nous sommes amenés à exploiter les propositions du Laboratoire de Linguistique Informatique (LLI) en matière de représentation de la langue : les classes d’objets. Un outil d’interrogation définit une application du langage vers le modèle de l’information stockée. Ici les classes d’objets et leurs prédicats appropriés modélisent le langage source, tandis que le modèle relationnel sert pour les données interrogées. Nous présentons d’abord ce contexte d’application, puis comment nous utilisons les classes d’objets et prédicats appropriés dans ce cadre.

MOTS-CLÉS : prédicat ; base de données ; langue ; langue naturelle ; modèle conceptuel ; classe d’objets

LIRE L’ARTICLE  :


Friburger, Nathalie ; Maurel, Denis (2001). Elaboration d’une cascade de transducteurs pour l’extraction des noms de personnes dans les textes

RÉSUMÉ : Cet article décrit une cascade de transducteurs pour l’extraction de noms propres dans des textes. Après une phase de pré-traitement (découpage du texte en phrases, étiquetage à l’aide de dictionnaires), une série de transducteurs sont appliqués les uns après les autres sur le texte et permettent de repérer, dans les contextes gauches et droits des éléments "déclencheurs" qui signalent la présence d’un nom de personne. Une évaluation sur un corpus journalistique journal Le Monde) fait apparaître un taux de précision de 98,7% pour un taux de rappel de 91,9%.

MOTS-CLÉS : patronyme ; transducteur ; extraction ; extraction ; extraction de noms ; cascade de transducteur

LIRE L’ARTICLE  :


Michiels, Archibald (2001). DEFI, un outil d’aide à la compréhension

RÉSUMÉ : DEFI est un outil d’aide à la comprehension de textes anglais destine aux lecteurs francophones. Il établit un filtre sur le dictionnaire bilingue anglais-français pour ne retenir que les acceptions pertinentes au contexte et en donner les équivalents français, en plaçant les plus pertinents en tête.

MOTS-CLÉS : unité textuelle ; grammaire ; grammaire locale ; appariement ; base de données

LIRE L’ARTICLE  :


Ferret, Olivier ; Grau, Brigitte ; Minel, Jean-Luc ; Porhiel, Sylvie (2001). Repérage de structures thématiques dans des textes

RÉSUMÉ : Afin d’améliorer les performances des systèmes de résumé automatique ou de filtrage sémantique concernant la prise en charge de la cohérence thématique, nous proposons un modèle faisant collaborer une méthode d’analyse statistique qui identifie les ruptures thématiques avec un système d’analyse linguistique qui identifie les cadres de discours.

MOTS-CLÉS : exploration contextuelle ; unité textuelle ; valeur de cohésion ; segment

LIRE L’ARTICLE  :


Hamon, Thierry ; Nazarenko, Adeline (2001). Exploitation de l’expertise humaine dans un processus de constitution de terminologie

RÉSUMÉ : Le processus de construction de terminologie ne peut être entièrement automatisé. Les méthodes et des outils de la terminologie computationnelle permettent de prendre en charge une partie de la tâche, mais l’expertise humaine garde une place prépondérant. Le défi pour les outils terminologiques est de dégrossir les tâches qui sont soit trop longues soit trop complexes pour l’utilisateur tout en permettant à ce dernier d’intégrer ses propres connaissances spécialisées et en lui laissant le contrôle sur la terminologie à construire. Nous montrons ici comment le rôle de cette expertise est pris en compte dans SynoTerm, l’outil d’acquisition de relation de synonymie entre termes que nous avons développé.

MOTS-CLÉS : ressource lexicale ; langue ; langue générale ; candidat-terme ; acquisition de relations terminologiques

LIRE L’ARTICLE  :


Poibeau, Thierry (2001). Extraction d’information dans les bases de données textuelles en génomique au moyen de transducteurs à nombre fini d’états

RÉSUMÉ : Cet article décrit un système d’extraction d’information sur les interactions entre gènes à partir de grandes bases de données textuelles. Le système est fondé sur une analyse au moyen de transducteurs à nombre fini d’états. L’article montre comment une partie des ressources (verbes d’interaction) peut être acquise de manière semi-automatique. Une évaluation détaillée du système est fournie.

MOTS-CLÉS : extraction ; extraction d’information ; transducteur ; nom ; nom de gène ; base de données

LIRE L’ARTICLE  :


Ferret, Olivier ; Grau, Brigitte ; Minel, Jean-Luc ; Porhiel, Sylvie (2001). Repérage de structures thématiques dans des textes

RÉSUMÉ : Afin d’améliorer les performances des systèmes de résumé automatique ou de filtrage sémantique concernant la prise en charge de la cohérence thématique, nous proposons un modèle faisant collaborer une méthode d’analyse statistique qui identifie les ruptures thématiques avec un système d’analyse linguistique qui identifie les cadres de discours.

MOTS-CLÉS : exploration contextuelle ; unité textuelle ; valeur de cohésion ; segment

LIRE L’ARTICLE  :


Lafourcade, Mathieu ; Prince, Violaine (2001). Synonymies et vecteurs conceptuels

RÉSUMÉ : La synonymie est une relation importante en TAL mais qui reste problématique. La distinction entre synonymie relative et synonymie subjective permet de contourner certaines difficultés. Dans le cadre des vecteurs conceptuels, il est alors possible de définir formellement des fonctions de test de synonymie et d’en expérimenter l’usage.

MOTS-CLÉS : synonymie ; vecteur ; vecteur conceptuel ; recherche d’information ; segment textuel

LIRE L’ARTICLE  :


Besançon, Romaric ; Rozenknop, Antoine ; Chappelier, Jean-Cédric ; Rajman, Martin (2001). Intégration probabiliste de sens dans la représentation de textes-

RÉSUMÉ : Le sujet du présent article est l’intégration des sens portés par les mots en contexte dans une représentation vectorielle de textes, au moyen d’un modèle probabiliste. La représentation vectorielle considérée est le modèle DSIR, qui étend le modèle vectoriel (VS) standard en tenant compte à la fois des occurrences et des co-occurrences de mots dans les documents. L’intégration des sens dans cette représentation se fait à l’aide d’un modèle de Champ de Markov avec variables cachées, en utilisant une information sémantique dérivée de relations de synonymie extraites d’un dictionnaire de synonymes.

MOTS-CLÉS : sémantique ; sémantique distributionnelle ; espace vectoriel ; terme ; terme d’indexation ; synonymie ; fréquence


Chappelier, Jean-Cédric ; Rajman, Martin (2001). Grammaire à substitution d’arbre de complexité polynomiale : un cadre efficace pour DOP-

RÉSUMÉ : Trouver l’arbre d’analyse le plus probable dans le cadre du modèle DOP (Data-Oriented Parsing) _une version probabiliste de grammaire à substitution d’arbres développée par R. Bod (1992) _ est connu pour être un problème NP-difficile dans le cas le plus général (Sima’an, 1996a). Cependant, si l’on introduit des restrictions a priori sur le choix des arbres élémentaires, on peut obtenir des instances particulières de DOP pour lesquelles la recherche de l’arbre d’analyse le plus probable peut être effectuée en un temps polynomial (par rapport à la taille de la phrase à analyser). La présente contribution se propose d’étudier une telle instance polynomiale de DOP, fondée sur le principe de sélection miminale-maximale et d’en évaluer les performances sur deux corpus différents.

MOTS-CLÉS : complexité polynomiale ; arbre ; arbre d’analyse ; grammaire ; grammaire hors-contexte ; corpus

LIRE L’ARTICLE  :


Todirascu, Amalia ; Rousselot, Francois (2001). Ontologies for Information Retrieval

RÉSUMÉ : L’article présente un système destiné à interroger en langue naturelle une base de texte sur un domaine limité. Les connaissances du domaine, représentées en logique de description, sont utilisées pour filtrer les documents retournés comme réponse. L’ontologie du domaine est extraite automatiquement à partir des textes et elle est modifiée dynamiquement avec des faits déduits par les mécanismes de logique de description. Les références aux concepts dans les textes sont identifiées par des techniques d’analyse du langage naturel.

MOTS-CLÉS : ontologie ; logique ; logique de description


Besançon, Romaric ; Rozenknop, Antoine ; Chappelier, Jean-Cédric ; Rajman, Martin (2001). Intégration probabiliste de sens dans la représentation de textes-

RÉSUMÉ : Le sujet du présent article est l’intégration des sens portés par les mots en contexte dans une représentation vectorielle de textes, au moyen d’un modèle probabiliste. La représentation vectorielle considérée est le modèle DSIR, qui étend le modèle vectoriel (VS) standard en tenant compte à la fois des occurrences et des co-occurrences de mots dans les documents. L’intégration des sens dans cette représentation se fait à l’aide d’un modèle de Champ de Markov avec variables cachées, en utilisant une information sémantique dérivée de relations de synonymie extraites d’un dictionnaire de synonymes.

MOTS-CLÉS : sémantique ; sémantique distributionnelle ; espace vectoriel ; terme ; terme d’indexation ; synonymie ; fréquence


Langlais, Philippe ; Simard, Michel (2001). Récupération de segments sous-phrastiques dans une mémoire de traduction-

RÉSUMÉ : L’utilité des outils d’aide à la traduction reposant sur les mémoires de traduction est souvent limitée par la nature des segments que celles-ci mettent en correspondance, le plus souvent des phrases entières. Cet article examine le potentiel d’un type de système qui serait en mesure de récupérer la traduction de séquences de mots de longueur arbitraire.

MOTS-CLÉS : traduction ; séquence de mots ; segment ; corpus

LIRE L’ARTICLE  :


Todirascu, Amalia ; Rousselot, Francois (2001). Ontologies for Information Retrieval

RÉSUMÉ : L’article présente un système destiné à interroger en langue naturelle une base de texte sur un domaine limité. Les connaissances du domaine, représentées en logique de description, sont utilisées pour filtrer les documents retournés comme réponse. L’ontologie du domaine est extraite automatiquement à partir des textes et elle est modifiée dynamiquement avec des faits déduits par les mécanismes de logique de description. Les références aux concepts dans les textes sont identifiées par des techniques d’analyse du langage naturel.

MOTS-CLÉS : ontologie ; logique ; logique de description


Abeillé, Anne ; Clément, Lionel ; Kinyon, Alexandra ; Toussenel, François (2001). Un corpus français arboré : quelques interrogations

RÉSUMÉ : Dans cet article nous présentons les premiers résultats de l’exploitation d’un Corpus français arboré (Abeillé et al., 2001). Le corpus comprend 1 million de mots entièrement annotés et validé pour les parties du discours, la morphologie, les mots composés et les lemmes, et partiellement annotés pour les constituants syntaxiques. Il comprend des extraits de journaux parus entre 1989 et 1993 et écrits par divers auteurs, et couvre différents thèmes (économie, littérature, politique, etc.). Après avoir expliqué comment ce corpus a été construit, et comment l’exploiter à l’aide d’un outil de recherche spécifique, nous exposerons quelques résultats linguistiques concernant les fréquences et les préférences lexicales et syntaxiques. Nous expliquerons pourquoi nous pensons que certains de ces résultats sont pertinents en linguistique théorique et en psycholinguistique.

MOTS-CLÉS : fréquence ; fréquence relative ; corpus ; corpus français ; groupe nominal ; catégorie grammaticale

LIRE L’ARTICLE  :


Vazov, Nikolai (2001). A System for Extraction of Temporal Expressions from French Texts

RÉSUMÉ : Cet article présente un système pour l’identification automatique des expressions temporelles dans des textes français. La procédure d’identification repose sur une stratégie d’exploration contextuelle qui met en oeuvre deux techniques complémentaires : recherche des patrons (expressions régulières) et chart parsing qui est déclenché en fonction des patrons repérés.

MOTS-CLÉS : chart parsing ; exploration contextuelle

LIRE L’ARTICLE  :


Campione, Estelle ; Véronis, Jean (2001). Etiquetage prosodique semi-automatique des corpus oraux

RÉSUMÉ : La transcription manuelle de la prosodie est une tâche extrêmement coûteuse en temps, qui requiert des annotateurs très spécialisés, et qui est sujette à de multiples erreurs et une grande part de subjectivité. Une automatisation complète n’est pas envisageable dans l’état actuel de Ia technologie, mais nous présentons dans cette communication des outils et une méthodologie qui permettent une réduction substantielle du temps d’intervention manuelle, et améliorent l’objectivité et la cohérence du résultat. De plus, les étapes manuelles nécessaires ne demandent pas une expertise phonétique poussée et peuvent être menées à bien par des étudiants et des linguistes de corpus.

MOTS-CLÉS : corpus ; corpus oral ; intonation ; segment ; étiquetage ; marque d’hésitation

LIRE L’ARTICLE  :


Barthélemy, François ; Boullier, Pierre ; Deschamp, Philippe ; Kaouane, Linda ; Villemonte de la Clergerie, Éric (2001). Atelier ATOLL pour les grammaires d’arbres adjoints

RÉSUMÉ : Cet article présente l’environnement de travail que nous développons au sein de l’équipe ATOLL pour les grammaires d’arbres adjoints. Cet environnement comprend plusieurs outils et ressources fondés sur l’emploi du langage de balisage XML. Ce langage facilite la mise en forme et l’échange de ressources linguistiques.

MOTS-CLÉS : formalisme grammatical ; arbre ; tag ; arbre de dérivation ; grammaire ; langage ; langage de balisage

LIRE L’ARTICLE  :