D'un point de vue linguistique, ce que l'algorithme ici implémenté permet de faire est tout simplement l'opération de segmentation, utilisée en linguistique de corpus pour déterminer quelles sont les unités d'un corpus transcrit sous la forme d'un texte comportant des mots typographiques. Il s'agit donc d'un outil voué à assister les linguistes dans l'exploration de corpus textuels (transcriptions), en vue d'en extraire des unités linguistiques pertinentes. Cette applet repose sur un module logiciel de la plate-forme CoPT, en cours de constitution.
Telle quelle, cette applet ne permet de voir le résultat de l'algorithme que sur 2 chaînes, ce qui permet déjà de retrouver des patrons syntaxiques communs à 2 chaînes de caractères (i.e. 2 phrases).
Il faut imaginer le résultat d'un calcul exhaustif sur toutes les paires de phrases relativement proches (i.e. en-dessous d'une distance d'édition donnée) constituant un corpus de spécialité (à suivre). Cette procédure, que j'ai testée avec une version expérimentale des algorithmes implémentés ici, permet d'extraire d'un même mouvement:

des termes (éventuellement composés)
des collocations
des patrons syntaxiques.

Il reste à faire évoluer cette applet vers une version plus complète, procédant également aux opérations de commutation.

Prérequis

Cette applet a été compilée avec la version 1.5 du jre de Sun (télécharger et installer l'interpréteur en suivant le lien Download JRE 5.0 Update 2).

Utilisation

Il est possible de tester l'applet en laissant les 2 chaînes par défaut ("Quelle est la capitale du Burundi ?" et "Quelle est la capitale officielle du Burundi ?", questions extraites de la campagne EQUER 2004, portant sur l'évaluation des systèmes Question/Réponse). Vous pouvez également taper n'importe quelles chaînes, à condition de respecter les conventions suivantes:

ne pas utiliser le caractère "-" dans les chaînes (pour cette version, "-" est un caractère réservé, utilisé en interne); ça marche (l'applet ne "crashe" pas), mais ce n'est pas recommandé
séparer les caractères de ponctuation des mots par un espace (ex: "a-t-il" => "a - t - il")
veiller à ne pas introduire plusieurs espaces ou tabulations (sinon ils sont comptés comme des unités à segmenter).

Je n'ai pas testé, mais les chaînes Unicode devraient être supportées, étant donné que tout est écrit en Java.

Pour tout commentaire, suggestion, notification de bug etc., vous pouvez me contacter à l'adresse suivante antonio.balvet at univ-lille3.fr (remplacer "at" par @).

Applet de test du module CoPT WordLCS_V1
Auteur: Antonio BALVET, université Lille 3, UMR Silex, UMR Modyco
Date de création: 21/03/2005
Version: 1.0

WordLCS

Définition

Applications

Prérequis

Utilisation