HAL Id: hal-01574516 https://hal.archives-ouvertes.fr/hal-01574516 Submitted on

HAL Id: hal-01574516 https://hal.archives-ouvertes.fr/hal-01574516 Submitted on 14 Aug 2017 HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés. Le style de Proust dans la Recherche du temps perdu. Etude quantitative. Étienne Brunet To cite this version: Étienne Brunet. Le style de Proust dans la Recherche du temps perdu. Etude quantitative.. VII International Symposium of the Association for Literary and Linguistic Computing, 1982, Pise, Italie. pp.51-76. ￿hal-01574516￿ Le style de Proust dans La recherche du temps perdu. Etude quantitative 1 Les grands écrivains sont ceux que l’ordinateur approche le plus volontiers. Il ne faut point voir là le signe de quelque discernement remarquable non plus que d’un regrettable sans-gêne, mais la marque d’une contrainte économique qui pèse sur ce genre d’entreprise et qui se justifie plus aisément dans le cas des grands textes comme la Bible, la Somme de Saint Thomas, l’oeuvre de Shakespeare ou celle de Proust. Aussi bien l’index que nous proposons n’est-il pas le seul qui ait été tenté sur la Recherche du temps perdu : depuis bien longtemps déjà, on dispose d’un Dictionnaire des idées de Proust, réalisé en 1968 par Pauline Newman Gordon2. Et plus récemment au Centre d’analyse des manuscrits modernes du C.N.R.S3, un vaste projet a été engagé pour réaliser l’édition automatique des brouillons de Proust. Nul doute que cette dernière entreprise – dont on trouve peu d’exemples – n’apporte une aide précieuse à l’exégèse d’un texte variant dont la genèse, la composition et l’écriture posent des problèmes sans cesse renouvelés4. Notre index se situe entre ces deux entreprises : profitant des progrès accomplis depuis quinze ans par l’informatique, il ne se contente plus de proposer un choix de termes ou de champs sémantiques jugés proustiens et significatifs, mais fournit un relevé complet de tous les mots de la 1. Actes du colloque du VIIe International Symposium of the l’Association for Literary and Linguistic Computing (Pisa, 1982), parus dans Linguistica Computazionale, vol. 3, Supplément, 1983, Pisa, p. 51-76. 2. Standford University, Mouton. Préface d’Alphonse Juillard. 3. A l’École Normale Supérieure, rue d’Ulm, sous la direction de Louis Hay. 4. L’avancement des travaux est exposé dans un article de Louis Hay, « Passé et avenir : Le patrimoine des écrits », Courrier du C.N.R.S., numéro 38, oct. 1980, p. 40-44. On y trouvera un exemple de l’édition automatique des variantes de Proust, réalisation de M. Hainsworth et J. L. Lebrave. Etienne Brunet LE STYLE DE PROUST. ÉTUDE QUANTITATIVE 224 Recherche. En revanche, il s’en tient au texte de l’édition de la Pléiade et s’interdit toute incursion du côté des Cahiers et des manuscrits. Il n’est pas impossible qu’il puisse précisément aider au déchiffrage et au classement des manuscrits, la lecture associative des index permettant de rapprocher des passages qui ont la même inspiration, et peut-être la même date de composition, et qui ont été disloqués dans l’espace du livre par l’effet des ciseaux et de la colle dont Proust usait si souvent. 1. L’Index de la Recherche du temps perdu Le tableau 1 restitue une des 1600 pages de notre index5. Les index sont devenus des produits courants qui n’appellent guère de commentaires. Nous nous contenterons de souligner quelques nouveautés. 1.1. Il s’agit d’abord d’un index lemmatisé et cette opération a été rendue malaisée par la taille du corpus. En recourant à un fichier modèle établi à Nancy6, on a pu rattacher au lemme – à la vedette de regroupement – les formes ou graphies relevées dans le texte. Certes cette lemmatisation n’est pas sans reproche : les homographes ont reçu un traitement approximatif dans les deux fichiers et l’attention méfiante du lecteur est attirée sur ces cas douteux par un astérisque. De plus, le détail des 36.770 formes différentes et de leurs références est conservé et restitué dans l’index, tout en apparaissant subordonné au lemme grâce à l’artifice typographique de la minuscule initiale et du décrochement marginal. Bien entendu, l’ordre alphabétique gouverne d’abord les lemmes, puis les formes à l’intérieur des lemmes7. Le consultant alerté par le symbole de l’homographie peut donc contrôler lui-même les options de la lemmatisation et les rectifier au besoin pour son propre usage. Il peut en outre reconnaître si le lemme proposé se trouve réellement dans le texte sous la forme canonique : les lemmes 5. Le Vocabulaire de Proust, avec l’Index complet et synoptique de A la recherche du temps perdu, Slatkine-Champion, 1983, 3 vol., 1983 (préface de J.Y. Tadié). 6. Ce fichier, comme le fichier des données de Proust, est un produit de l’Institut National de la langue française (anciennement Trésor de la langue française). 7. C’est l’ordre alphabétique usuel, qui refuse toute valeur discriminante aux accents et qui a nécessité la traduction sous-jacente des mots en alphabet pauvre, même si la transcription utilise les caractères riches. LE STYLE DE PROUST. ÉTUDE QUANTITATIVE 225 « introduits » sont ceux qu’aucune référence ne suit immédiatement et qui sont absents de la liste subséquente des formes regroupées8. Tableau 1. Index de Proust (A la recherche du temps perdu) 1.2. L’index est exhaustif pour les formes, les lemmes et les fréquences des uns et des autres, et quasi complet pour les références. Ont été écartées, pour la seule raison qu’on devait gagner de la place, les références de 74 formes extrêmement fréquentes dont la localisation importait assez peu. Que pouvait-on gagner à connaître l’emplacement 8. Quand lemme et forme coïncident au même endroit de la liste alphabétique, on a évité un redoublement inutile; ainsi en est-il dans notre exemple pour abaissement, abandon, abasourdi, etc. LE STYLE DE PROUST. ÉTUDE QUANTITATIVE 226 précis des 53.078 occurrences de la préposition de ou des 28.885 emplois de l’article la ? Ces 74 exclusions concernent les formes et non les lemmes, ce qui permet l’étude des temps et modes, même des verbes fréquents et des auxiliaires, puisque, parmi les formes verbales, on n’en a rejeté que 3 du verbe être, 3 du verbe avoir, 2 de faire, 1 de dire et 1 de pouvoir. Aucun substantif n’a été exclu, ni aucun adjectif ou participe. Le tableau ci-dessous donne la répartition des mots dans les sous-ensembles de la Recherche 9: Swann Filles Guer. Sodom. Prison. Fugit. Temps Total Nbr. pages 428 528 592 534 410 272 360 3124 Vocabulaire commun occurrences 176357 217281 237655 215179 164683 111162 144752 1267069 vocables 9029 9826 10265 9866 8633 6419 8240 18322 formes différ. 14677 16653 17221 16239 14162 10155 13033 36867 références 569415 Noms propres occurrences 4718 5469 9138 9534 5301 3530 5017 42707 vocables 569 721 1040 1084 629 368 710 2976 références 32686 Au total notre Index comprend 569.415 références, à quoi il faut ajouter 32.686 références de noms propres réunis dans une liste spéciale10. 1.3. Les références précisent le tome de l’édition de la Pléiade, la partie de l’ouvrage (de Swann au Temps retrouvé), la page et la zone dans la page. Comme dans les données de Nancy les lignes ont été recomposées tout en respectant le cadre de la page, il n’était plus possible de restituer le numéro exact de la ligne, lequel, au reste, ne figure pas dans l’édition de référence. Pour éviter au lecteur des lectures et des fatigues inutiles, un code ajouté au numéro de page le conduit directement à une zone de la page qui contient environ 6 lignes ou 70 mots. On a distingué 7 codes alphabétiques (de a à g), le code d par exemple renvoyant au milieu de la page, et le code g à la fin. En réalité pour constituer chaque référence, il a suffi de 3 ou 4 chiffres (indication de page) et d’une lettre (indication de zone), les précisions de tome et de partie figurant une fois pour toutes en haut de chaque page. 9. Il s’agit de l’édition de la Pléiade, réalisée par Pierre Clarac et André Ferré, en 1954. Cette belle édition est appelée à durer longtemps encore et l’étude approfondie des Cahiers ne semble pas devoir la remettre en cause. 10. Ont été écartées les abréviations M. (2.116 occ.) et Mme (3.089 occ.) et la particule nobiliaire de (4.316 occ.) LE STYLE DE PROUST. ÉTUDE QUANTITATIVE 227 1.4. En effet, comme nous l’avons fait pour l’index de l’Emile11, la présentation est synoptique et les 7 livres consécutifs de la Recherche apparaissent simultanément en 7 colonnes juxtaposées, ce qui facilite non seulement la lecture, mais aussi la mesure rapide de la distribution ou de l’évolution d’un mot à l’intérieur de l’oeuvre. L’impression visuelle que donne cette sorte d’histogramme renversé est confirmée – au moins chaque fois qu’une forme a au moins 10 occurrences – par la séquence chiffrée des fréquences. Ainsi uploads/s3/ 10bat-proust-pdf.pdf

  • 45
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager