WordLCS

Définition

Ceci est la version 1.0 d'une applet permettant de tester le principe de l'algorithme LCS (Longest Common Subsequence) sur les mots et non pas les caractères. L'algorithme implémenté ici s'inspire de la programmation dynamique (cf. NIST Dictionary of Algorithms) pour résoudre le problème suivant:

Applications

D'un point de vue linguistique, ce que l'algorithme ici implémenté permet de faire est tout simplement l'opération de segmentation, utilisée en linguistique de corpus pour déterminer quelles sont les unités d'un corpus transcrit sous la forme d'un texte comportant des mots typographiques. Il s'agit donc d'un outil voué à assister les linguistes dans l'exploration de corpus textuels (transcriptions), en vue d'en extraire des unités linguistiques pertinentes. Cette applet repose sur un module logiciel de la plate-forme CoPT, en cours de constitution.
Telle quelle, cette applet ne permet de voir le résultat de l'algorithme que sur 2 chaînes, ce qui permet déjà de retrouver des patrons syntaxiques communs à 2 chaînes de caractères (i.e. 2 phrases).
Il faut imaginer le résultat d'un calcul exhaustif sur toutes les paires de phrases relativement proches (i.e. en-dessous d'une distance d'édition donnée) constituant un corpus de spécialité (à suivre). Cette procédure, que j'ai testée avec une version expérimentale des algorithmes implémentés ici, permet d'extraire d'un même mouvement:
Il reste à faire évoluer cette applet vers une version plus complète, procédant également aux opérations de commutation.

Prérequis

Cette applet a été compilée avec la version 1.5 du jre de Sun (télécharger et installer l'interpréteur en suivant le lien Download JRE 5.0 Update 2).

Utilisation

Il est possible de tester l'applet en laissant les 2 chaînes par défaut ("Quelle est la capitale du Burundi ?" et "Quelle est la capitale officielle du Burundi ?", questions extraites de la campagne EQUER 2004, portant sur l'évaluation des systèmes Question/Réponse). Vous pouvez également taper n'importe quelles chaînes, à condition de respecter les conventions suivantes:
Je n'ai pas testé, mais les chaînes Unicode devraient être supportées, étant donné que tout est écrit en Java.

Pour tout commentaire, suggestion, notification de bug etc., vous pouvez me contacter à l'adresse suivante antonio.balvet at univ-lille3.fr (remplacer "at" par @).




Applet de test du module CoPT WordLCS_V1
Auteur: Antonio BALVET, université Lille 3, UMR Silex, UMR Modyco
Date de création: 21/03/2005
Version: 1.0