CorpusWeb

Description de l'outil

Nom de l'outilCorpusWeb
Type d'outilAutre (préciser)
Mots-cléscorpus, presse, web interface
URL de l'outilhttp://www.ladl.jussieu.fr/tools/tools.html
Téléchargement http://www.ladl.jussieu.fr/tools/tools.html
URL de démo http://glossa.ladl.jussieu.fr/
DescriptionCorpusWeb is used to download a Web site and to convert it in a corpus that can be analysed with any corpora parser. The software is able to delimit the part of the Web site to dowload with accurate precision : it can download for example the on-line edition of the day of any newpaper available on the Internet. Several examples of configuration files are given.

Since CorpusWeb can be run from a shell command, it can be used as an interface between the Web and a corpora parser (see GlossaNet).

CorpusWeb permet de télécharger des sites Web et de les transformer en corpus de texte exploitables par n’importe quel logiciel de traitement de corpus. Sa particularité est qu’il est finement paramétrable : il est possible de le configurer de telle manière qu’il télécharge l’édition du jour de n’importe quel quotidien accessible sur Internet(il est diffusé avec une dizaine d’exemples de fichiers de configuration).

CorpusWeb peut être utilisé en ligne de commande... il peut donc être réutilisé dans d’autres applications. Il peut par exemple servir d’interface entre le Web et un analyseur de corpus ’ordinaires’ (voir à ce propos GlossaNet).

Informations complémentaires

Complément sur le type Télécharge un site Web et le transforme en corpus/joue le rôle d’interface entre le Web et un logiciel de traitement de corpus.
Disponibilité de l'outil pour la recherche et l'enseignement téléchargeable, vendu (préciser le prix ci-dessous)
Disponibilité de l'outil pour une utilisation commerciale vendu (préciser le prix ci-dessous)
Disponibilité des sources sources non disponibles
Systèmes d'exploitation sur lesquels tourne l'outil Windows
Type d'interface d'utilisation Interface graphique, Interface ligne de commande
Utilisation effective dans l’équipe locale, à l’extérieur
Compléments :
La version Beta (entièrement fonctionnelle) peut être téléchargée librement.

Autres informations :
CorpusWeb est un module de GlossaNet (http://glossa.ladl.jussieu.fr)

Auteur

Nom Cédrick Fairon
Affiliation LADL & Université catholique de Louvain
URL http://glossa.ladl.jussieu.fr/

Ces renseignements ont été saisis le 1999-11-05 par Cédrick Fairon.