“L'HyperPo: Exploration des structures lexicales à
l'aide des formes hypertextuelles”
Stéfan
Sinclair
Queen's University
4ss42@qsilver.queensu.ca
Introduction
L'analyse de texte informatisée représente à la fois un domaine foisonnant de nouvelles possibilités pour la critique littéraire et une source de frustration constante pour les chercheurs qui s'y intéressent. L'automatisation de certaines tâches fastidieuses et enclines aux erreurs humaines figure sûrement parmi les apports merveilleux de l'informatique -- et pourtant ce caractère machinal, inflexible et somme tout inintelligent demeure simultanément sa plus importante pierre d'achoppement. C'est justement un désir de combler le gouffre qui semble exister entre l'univers souvent rigide, mécanique et ésotérique de l'ordinateur et l'univers plutôt nuancé et spéculatif de la littérature qui sert d'impulsion pour le système d'exploration textuelle qui sera présenté ci-dessous. Je précise tout de suite que l'HyperPo (Hypertexte Potentiel) est loin de résoudre tous les problèmes dont souffrent actuellement les recherches en analyse informatisée de texte, mais ces forces motivantes sont néanmoins des plus pertinentes. En particulier, l'HyperPo se veut un exemple de logiciel manifestement utile pour l'analyse informatisée des textes, et en même temps relativement simple et convivial. À cet égard, il cherche à se rendre accessible aux non-experts tout en suscitant l'intérêt des experts. Par ailleurs, comme l'évoque son nom, l'HyperPo s'inspire fortement des principes de l'OuLiPo (Ouvroir de littérature potentielle). Rappelons que l'OuLiPo poursuit une innovation systématique des contraintes dans la production littéraire. L'HyperPo, pour sa part, facilite l'exploration des formes potentielles d'un texte et s'engage à des résultats intéressants surtout lorsque les textes de base s'apparentent aux textes oulipiens. En somme, l'HyperPo tente de renforcer deux des rapports entre les trois éléments qui comportent ce qu'il convient d'appeler la trinité de l'analyse informatisée des textes: l'humain, la machine et le texte. D'une part, grâce à sa vigilance d'harmoniser sa puissance et sa simplicité, l'HyperPo travaille le lien entre l'humain et la machine (voir A dans la figure 1). D'autre part, en se concentrant sur des textes oulipiens qui se prêtent relativement bien à l'analyse informatisée en raison de leur caractère plutôt algorithmique, l'HyperPo facilite le lien entre la machine et le texte (voir B dans la figure 1).Figure 1.
figure 1
L'Hyperpo
L'HyperPo est un outil d'exploration textuelle qui fonctionne en tant que page hypertoile (page World Wide Web). Toute personne qui a accès à Netscape 2.x ou plus haut, ou bien un logiciel semblable, peut donc profiter de l'HyperPo. Cette très grande accessibilité qui permet de l'utiliser sur des systèmes d'exploitation différents (PC, Mac, Unix, etc.) est encore relativement rare pour des logiciels d'analyse textuelle (voir cependant TactWeb pour un exemple avant-coureur du genre d'outil qui sera sans doute bientôt disponible: http://tactweb.humanities.mcmaster.ca/tactweb/home.htm). L'HyperPo tourne grâce à un logiciel écrit dans un langage de programmation qui s'appelle Perl (Practical Extraction and Report Language -- voir http://www.perl.com/perl/ pour plus d'informations). Sans trop s'appesantir sur les détails du langage, il vaut la peine de mentionner que Perl me semble très prometteur pour les humanistes qui s'intéressent à l'informatique, car il offre un juste milieu entre plusieurs autres langages de programmation: il est plus puissant que certains langages tels que Basic et AWK, et moins compliqué que d'autres tels que C et Java. Mais surtout, il a été conçu pour communiquer avec les pages hypertoiles et pour effectuer plusieurs sortes de démarches sur des textes. L'HyperPo tourne grâce à un logiciel écrit dans un langage de programmation qui s'appelle Perl (Practical Extraction and Report Language -- voir http://www.perl.com/perl/ pour plus d'informations). Sans trop s'appesantir sur les détails du langage, il vaut la peine de mentionner que Perl me semble très prometteur pour les humanistes qui s'intéressent à l'informatique, car il offre un juste milieu entre plusieurs autres langages de programmation: il est plus puissant que certains langages tels que Basic et AWK, et moins compliqué que d'autres tels que C et Java. Mais surtout, il a été conçu pour communiquer avec les pages hypertoiles et pour effectuer plusieurs sortes de démarches sur des textes. L'HyperPo comprend quatre parties principales qui se présentent dans trois fenêtres d'un navigateur tel que Netscape. La fenêtre en haut contient le texte de base à évaluer et un tableau qui comprend plusieurs options qui peuvent être configurées selon les besoins de l'individu et les particularités du texte. La fenêtre en bas à gauche est réservée pour la version hypertextuelle du texte de base tandis que la fenêtre en bas à droite est désignée pour les listes fréquences et d'éléments triés (la notion d'élément deviendra plus claire au fur et à mesure que les options seront expliquées). La figure 2 montre l'organisation de la page.Figure 2.
figure 2: L'organisation de l'HyperPo
Figure 3.
Figure 3: Le texte de base et une de ses versions
hypertextuelles.
Figure 4.
Figure 4: Vue adjacente des formes textuelles
- tous les éléments triés:
- wheel +1 exercices.txt | sort | more
- les fréquences en ordre décroissant de tous les éléments:
- wheel +1 exercices.txt | sort | uniq -c | sort -r | more
- le nombre total d'éléments:
- wc exercices.txt
- les suites d'éléments répétées:
- wheel +2 exercices.txt | sort | {petit logiciel awk} | more
- les fréquences des suites d'éléments répétés:
- wheel +2 exercices.txt | sort | uniq -c | sort -r | more
- le nombre total des suites d'éléments répétées:
- wheel +2 exercices.txt | sort | {petit logiciel awk}
Figure 5.
Figure 5: Une comparaison entre TACT, les outils dans Unix et
l'HyperPo.
Conclusion
En profitant de ce qu'offre les possibilités hypertextuelles dans l'analyse informatisée des structures lexicales, L'HyperPo confronte la trinité de l'humain, de la machine et du texte. Il met d'abord en valeur le rapport entre l'humain et la machine en faisant tout son possible pour harmoniser sa puissance et sa simplicité. Il met également en valeur le rapport entre la machine et le texte en conduisant à la réflexion sur les structures multiples des textes et en invitant l'analyse des textes qui s'apparentent aux travaux des Oulipiens. Dans son état actuel, l'HyperPo représente plutôt un intérêt conceptuel que pratique. Entre autres, il fonctionne sans doute trop lentement pour être utilisé comme outil dans l'analyse des textes de taille moyenne. On pourrait par ailleurs imaginer un HyperPo qui permettrait un jour d'explorer les structures sémantiques ainsi que les structures lexicales. Conforme à son nom, l'HyperPo offre un potentiel énorme pour le développement futur.Références
Italo Calvino. La Machine littérature. Ed. Marcel Orcel François Wahl. Paris: Seuil, 1993.
Michel Bernard. “Hypertexte: La Troisième dimension du langage.” Texte. 1993. : 5-20.
unknown. Digital Word: text-based computing in the humanities. Cambridge: MIT Press, 1993.
Oulipo. Atlas de littérature potentielle. Paris: Gallimard, 1988.
unknown. The Perl Language Home Page.
unknown. TACTWeb 0.5 Home Page.
unknown. Text Analysis Computing Tools.
Alain Vuillemin. Informatique et littérature. Paris: Champion, 1990.