D'un point de vue linguistique, ce
que l'algorithme ici implémenté permet de faire est tout
simplement l'opération de segmentation, utilisée en
linguistique de corpus pour déterminer quelles sont les
unités d'un corpus transcrit sous la forme d'un texte comportant
des mots typographiques. Il s'agit donc d'un outil voué à
assister les linguistes dans l'exploration de corpus textuels
(transcriptions), en vue d'en extraire des unités linguistiques
pertinentes. Cette applet repose sur un module logiciel de la
plate-forme
CoPT, en cours
de constitution.
Telle quelle, cette applet ne permet de voir le résultat de
l'algorithme que sur 2 chaînes, ce qui permet déjà
de retrouver des patrons syntaxiques communs à 2 chaînes
de caractères (i.e. 2 phrases).
Il faut imaginer le résultat d'un calcul exhaustif sur toutes
les paires de phrases relativement proches (i.e. en-dessous d'une
distance d'édition donnée) constituant un corpus de
spécialité (à suivre). Cette procédure, que
j'ai testée avec une version expérimentale des
algorithmes implémentés ici, permet d'extraire d'un
même mouvement:
- des termes (éventuellement composés)
- des collocations
- des patrons syntaxiques.
Il reste à faire évoluer cette applet vers une version
plus complète, procédant également aux
opérations de commutation.
Prérequis
Cette applet a été compilée avec la version 1.5 du
jre de
Sun
(télécharger et installer l'interpréteur en
suivant le lien
Download
JRE 5.0 Update 2).
Utilisation
Il est possible de tester l'applet en laissant les 2 chaînes par
défaut ("Quelle est la capitale du Burundi ?" et "Quelle est la
capitale
officielle du
Burundi ?", questions extraites de la campagne EQUER 2004, portant sur
l'évaluation des systèmes Question/Réponse). Vous
pouvez également taper n'importe quelles chaînes, à
condition de respecter les conventions suivantes:
- ne pas utiliser le caractère "-" dans les chaînes
(pour cette version, "-" est un caractère réservé,
utilisé en interne); ça marche (l'applet ne "crashe"
pas), mais ce n'est pas recommandé
- séparer les caractères de ponctuation des mots par
un espace (ex: "a-t-il" => "a - t - il")
- veiller à ne pas introduire plusieurs espaces ou
tabulations (sinon ils sont comptés comme des unités
à segmenter).
Je n'ai pas testé, mais les chaînes Unicode devraient être
supportées, étant donné que tout est écrit
en Java.
Pour tout commentaire, suggestion, notification de bug etc., vous
pouvez me contacter à l'adresse suivante antonio.balvet at
univ-lille3.fr (remplacer "at" par @).
Applet de test du
module CoPT WordLCS_V1
Auteur: Antonio BALVET, université Lille 3, UMR Silex, UMR Modyco
Date de création: 21/03/2005
Version: 1.0