Notes
[1] On peut
aussi mentionner les études de statistique lexicale, fondées sur la distance
intertextuelle, qui nourrissent la polémique autour de l’attribution des
œuvres de Molière, connue sous le nom de « L’affaire
Corneille-Molière » ([Labbé et Labbé 2001] ; [Brunet 2004] ; [Viprey et Ledoux 2006]). [3]
Biber et Conrad distinguent trois approches : register
perspective, genre perspective, style
perspective.
[4] Il s’agit d’un manuscrit
retrouvé au xviiie siècle, dont l’attribution est incertaine. Sur l’attribution de la
pièce à Molière, voir Forestier et Bourqui, 2010, II, 1719-1720.
[5] Il s’agit des dates de création.
Concernant Le Médecin volant, la date de
création est très incertaine. Georges Forestier et Claude Bourqui avancent
l’hypothèse selon laquelle le valet, d’abord prénommé « Mascarille », aurait été rebaptisé « Sganarelle » lorsque la pièce a été jouée en 1664. Si l’on suit
cette hypothèse, c’est cette date qui nous intéresse puisque le personnage a
alors été rattaché à la lignée des Sganarelle [Forestier et Bourqui 2010, II, 1720]. [6] Mascarille est le type du valet rusé à l’italienne : on le
retrouve dans deux pièces de Molière, Les Précieuses
ridicules et L’Étourdi ou les
Contretemps. Jodelet est un personnage qui a été conçu pour
l’acteur Julien Bedeau et dont la principale caractéristique est de faire
montre d’assurance tout en étant un grand poltron. Scarron est le principal
auteur de pièces « à Jodelet », mais Molière se
sert aussi de Jodelet dans Les Précieuses
ridicules.
[8]
Ibid., « Introduction », I, xxvi-xliii.
[10] D’après Forestier et Bourqui,
en 1664, lorsqu’est représentée la comédie du Médecin
volant, « en dehors de ses grandes
comédies, les personnages qu’il [Molière] s’attribuait portaient tous le
nom de Sganarelle ». Le Festin de
Pierre est créée en 1665 [Forestier et Bourqui 2010, II, 1720]. [11] L’imposture médicale est aussi au centre de L’Amour médecin, mais dans cette pièce c’est
l’amoureux Clitandre qui se déguise en médecin, et non Sganarelle, qui est
le père.
[13] Cet outil d’étiquetage
est entraîné sur un corpus de français contemporain en prose. Le texte de
Molière que nous avons utilisé est une édition normalisée du point de vue
orthographique (http://obvil.paris-sorbonne.fr/corpus/moliere/moliere). Un
prétraitement a été effectué afin de supprimer les majuscules à l’initiale
des vers. La performance de TreeTagger sur ce
corpus ne diminue pas de façon significative : 700 mots du corpus ont été
annotés manuellement et le taux d’erreur est de 3 %. Ce résultat
satisfaisant ne nous a pas paru justifier le recours à des modèles
spécifiques, tels que le modèle développé dans le cadre du projet PRESTO
(http://presto.ens-lyon.fr/?page_id=197). [14] L’extraction des
PoS n-grams est effectuée grâce à EReMoS, un outil développé
au sein du LIP6 (Laboratoire d’informatique de Paris VI) et dans le cadre de
la thèse de M. A. Boukhaled, 2016. Il en existe une version en ligne : http://eremos.lip6.fr/. EReMoS est
un outil qui permet d’extraire des séquences lexico-grammaticales de
complexité variable (PoS n-grams, mais aussi
n-grams composés d’éléments de natures différentes). Dans
cette étude, nous utilisons la fonction la plus basique, qui permet
l’extraction de PoS n-grams de longueur déterminée. [15] Dans cette phase, nous
appliquons un pré-filtrage minimal qui exclut les séquences à très
basses fréquences, autrement dit celles que l’on trouve dans moins
de 5 % des phrases du texte et qui correspondent à moins de cinq
occurrences.
[16] Nous avons utilisé la librairie
FactoMineR sous R pour l’analyse des correspondances (Lê et al., 2008). Le
code R avec lequel nous analysons les données d’EReMoS à l’aide de l’AFC est
disponible à l’adresse suivante: https://github.com/francescafrontini/CAforEREMOS. [17] L’AFC est souvent
utilisée avec des fréquences absolues (tableau de contingence). Toutefois,
certaines études ont recours aux fréquences relatives [Cichocki 2006]. Nous avons constaté de manière empirique
qu’étant donné les différences importantes entre les longueurs des textes,
le recours aux fréquences absolues tendait à donner plus de poids aux
séquences surreprésentées dans les textes les plus longs. Du point de vue de
la caractérisation, cela revient à dire que les personnages qui ont un
volume de parole plus important sont les plus marqués. Nous avons donc
privilégié une approche qui analyse les textes prononcés par les Sganarelle
comme s’ils avaient tous le même volume de parole. [18] L’analyse des
correspondances, comme d’autres types d’analyse factorielle, entraîne une
perte d’informations, car les distances sont représentées dans un espace
bidimensionnel. La quantité d’informations représentée sur chaque axe est
indiquée en pourcentage sur le graphique.
[19] L’AFC fournit la contribution de chaque variable sur chaque
dimension. Pour notre étude, nous prenons seulement en compte la
contribution sur les deux premières dimensions, c’est-à-dire celles qui sont
représentées dans le graphique. Cette contribution est calculée en suivant
l’implémentation proposée par le module FactoMineR.
[20] Dans le cadre de cet article, nous avons choisi de nous
limiter à l’analyse des cinq séquences les plus associées à chaque
Sganarelle. Il est toutefois possible de prendre en considération toutes les
séquences dont la contribution dépasse la moyenne et de déterminer les
textes qui leur sont associés. En outre, des méthodes statistiques telles
que le chi-square permettraient d’identifier les différences,
significatives du point de vue statistique, en ce qui concerne la
distribution des séquences dans les différents textes.
[22] Nous soulignons la séquence et
nous signalons en gras le syntagme que nous souhaitons mettre en
évidence.
[23] L’ordre des mots permet en général d’aller du connu (le
thème « ce dont on parle ») vers le nouveau (le rhème qui correspond
à l’apport d’informations, « ce qu’on dit du thème »).
[24] Le nom est
inventé par Molière à partir du verbe italien ingannare
« tromper » et du suffixe « -elle » que
l’on trouve dans le nom de plusieurs zanni de la commedia
dell’arte (Polichinelle, Briguelle, etc.). Voir [Forestier et Bourqui 2010, I, 1227]. [26] La
ponctuation des textes de notre corpus est celle des éditions originales des
pièces, les seules publiées avec l’aval de Molière.
[27] Pour une mise au
point sur le statut des humanités numériques par rapport à la distinction
traditionnelle entre « sciences de la culture »
et « sciences de la nature », voir [Ganascia 2015]. [28] Nous nous fondons sur la distinction établie par Pierre
Larthomas : le rythme désigne « tout effet
de répétition », le tempo, « la
plus ou moins grande rapidité avec laquelle la pièce est jouée »,
et le nombre est déterminé par « la
longueur des différents membres de la phrase et des effets produits par
leur juxtaposition ». [Larthomas 1972/2001, 72, 309, 311]. [29] La
« prose cadencée » est définie comme une « prose constituée d’une alternance de vers
irréguliers non rimés »
[Forestier et Bourqui 2010, II, 1623]. [30]
Nous avons approfondi cette question dans le cadre d’une étude qui porte sur
les « raisonneurs » chez Molière. L’analyse a permis de mettre en
évidence l’usage particulier de la ponctuation dans Le
Misanthrope, comédie mondaine par excellence. Cette étude,
intitulée « Être ou ne pas être raisonneur : étude du
lexique et des motifs syntaxiques dans les comédies de Molière »,
a été présentée, avec la collaboration de Jean-Gabriel Ganascia, dans le
cadre du colloque « Des humanités numériques
littéraires ? », organisé par Daniel Alexandre, Milad Doueihi et
Marc Douguet, le 21 juin 2017 au Centre international culturel de Cerisy.
Works Cited
Benzécri 1982 Benzécri, Jean-Paul. Histoire et préhistoire de l’analyse des données. Paris,
Dunod (1982).
Bernet 1983 Bernet Charles. Le
Vocabulaire des tragédies de Jean Racine. Analyse statistique.
Genève-Paris, Slatkine-Champion (1983).
Biber et Conrad 2009 Biber, Douglas, Conrad, Susan.
Register, Genre and Style. Cambridge, Cambridge
University Press (2009).
Bloch 2009 Bloch Olivier. Molière: comique et communication. Pantin, Le Temps des Cerises
(2009).
Boukhaled 2016 Boukhaled, Mohamed Amine. On Computational Stylistics: Mining Literary Texts for the
Extraction of Characterizing Stylistic Patterns. Thèse de doctorat (sous
la direction de J.-G. Ganascia). Université Pierre et Marie Curie (2016).
Cichocki 2006 Cichocki Wladyslaw. “Geographic Variation in Acadian French: What can Correspondence
Analysis Contribute Toward Explanation?”. Literary
and Linguistic Computing, 21 (4): 529-541 (2006).
Conesa 1983 Conesa Gabriel. Le
Dialogue moliéresque. Étude stylistique et dramaturgique. Paris, Presses
universitaires de France (1983).
Forestier et Bourqui 2010 Forestier, Georges,
Bourqui, Claude (éd.). Molière, Œuvres complètes. Paris,
Gallimard, Bibliothèque de la Pléiade, 2 tomes (2010).
Fournier 1999 Fournier Nathalie. “La position des groupes prépositionnels dans l’énoncé, dans Le Misanthrope et George
Dandin”. In Phrases: syntaxe, rythme,
cohésion du texte. Neveu, Frank (éd.). Paris, SEDES (1999).
Frontini, Boukhaled et Ganascia 2015a Frontini,
Francesca, Boukhaled, Mohamed Amine, Ganascia, Jean-Gabriel. “Molière’s Raisonneurs: a Quantitative Study of Distinctive Linguistic
patterns”. In
Corpus Linguistics 2015 — Abstract
Book. Lancaster: 114-117 (2015).
http://ucrel.lancs.ac.uk/cl2015/doc/CL2015-AbstractBook.pdf [dernière
consultation le 14/07/17].
Frontini, Boukhaled et Ganascia 2017 Frontini,
Francesca, Boukhaled, Mohamed Amine, Ganascia, Jean-Gabriel. “Mining for Characterizing Patterns in Literature Using Correspondance Analysis.
An Experiment on French Novels”. Digital Humanities
Quarterly Proceedings of the Göttingen Dialogue for Digital Humanities
2015. 11-2 (2017).
Kylander 1995 Kylander, Britt-Marie. Le Vocabulaire de Molière dans les comédies en alexandrins.
Göteborg, Acta Universitatis Gothoburgensis (1995).
Labbé et Labbé 2001 Labbé Dominique, Labbé Cyril.
“Inter-Textual Distance and Authorship Attribution. Corneille
and Molière”
Journal of Quantitative Linguistics. 8-3: 213-231
(2001).
Larthomas 1972/2001 Larthomas, Pierre. Le Langage dramatique: sa nature, ses procédés. Paris,
Presses universitaires de France (2001).
Lê et al. 2008 Lê Sébastien, Josse, Julie, Husson
François. 2008. “FactoMineR: An R Package for Multivariate
Analysis”. Journal of Statistical Software,
25-1: 1-18 (2008).
Muller 1967 Muller, Charles. Étude de statistique lexicale. Le vocabulaire du théâtre de Pierre
Corneille. Paris, Larousse (1967).
Quiniou, Cellier, Charnois et Legallois 2012 Quiniou
Solen, Cellier Peggy, Charnois Thierry, Legallois Dominique. “What About Sequential Data Mining Techniques to Identify Linguistic Patterns for
Stylistics?”. International Conference on
Intelligent Text Processing and Computational Linguistics (CICLing'12),
New Delhi, India: 166-177 (2012).
Ramsay 2008 Ramsay Stephen. “Algorithmic Criticism”. In Schreibman, Susan, Siemens, Ray (éd.). A Companion to Digital Literary Studies. Oxford, Blackwell
Publishing Professional: 477-492 (2008).
Schmid 1994 Schmid, Helmut. “Probabilistic Part-of-Speech Tagging Using Decision Trees”. Proceedings of International Conference on New Methods in Language
Processing, Manchester, UK (1994).
Schmid 1995 Schmid Helmut. “Improvements in Part-of-Speech Tagging with an Application to German”.
Proceedings of the ACL SIGDAT-Workshop. Dublin,
Ireland (1995).
Schöch 2016 Schöch Christof. “Spitzer on Racine, digitally revisited”.
The
Digital Literary Stylistics Workshop co-located with Digital Humanities
2016. Cracovie (2016).
https://zenodo.org/record/61434#.V9pja5N96T9 [dernière consultation le
14/07/17].
Viprey et Ledoux 2006 Viprey, Jean-Marie, et Ledoux
Claude-Nicolas. “About Labbé’s intertextual distance”.
Journal of Quantitative Linguistics, 13 (2-3):
265-283 (2006).