mardi 20 juin 2017

Lexicologie élémentaire : ce qu'elle apporte à la lecture et à l'écriture



Ben Blatt, Nabokov's Favorite Word Is Mauve. What the numbers reveal about the classics, bestsellers, and our own writing, New York, Simon & Schuster, 2017, 272 p. , $25.

Cet ouvrage est consacré aux résultats d'analyses lexicales d'œuvres littéraires : le corpus étudié compte 1500 ouvrages sans compter ceux qui sont publiés uniquement sur le web (romans de fanfiction et literotica). Les titres et auteurs sont cités en note de fin d'ouvrage.
Ben Blatt est journaliste, il écrit notamment pour Slate. La méthodologie qu'il mobilise dans cet ouvrage est de strict comptage statistique : compter et caractériser les mots (fréquence, statut grammatical). Pour cela, l'auteur recourt au Natural Language Toolkit (NLTK), une bibliothèque de programmes en PYTHON qui permet de réaliser différentes opérations courantes : classification, parsing, stemming, tagging, tokenisation... Pour certaines analyses, l'auteur a également effectué des opérations manuelles (mesurer la hauteur des titres sur les couvertures, la surface occupée par le nom de l'auteur sur les couvertures, par exemple).

Comme toute analyse utilisant des data élémentaires, ce travail fait voir de l'invisible dans le texte, manifeste ce que ne voit pas et ne peut voir le lecteur. Le texte, ainsi que l'énonce l'étymologie du mot, est un tissage (latin texere, tisser, ourdir) et c'est ce tissage que défait l'analyse.
Un long développement est consacré aux adverbes : les lauréats (livres ayant obtenu un prix, best sellers) mobilisent moins d'adverbes que les livres d'auteurs moins distingués et encore beaucoup moins que les textes d'amateurs (comme fanfiction.net). Il y a beaucoup moins d'adverbes formés avec le suffixe ly ajoutés à un adjectif dans les romans d'Ernest Hemingway que dans ceux de J.K. Rowlings (Harry Potter). De telles analyses peuvent êtres utiles pour l'enseignement de la littérature, la compréhension du style. Ernest Hemingway réclamait un style sobre, dépouillé, concis ; selon lui, les lois de la prose sont immuables (immutable), comme celles des mathématiques ou de la physique. Il n'est dépassée pour la concision que par Toni Morrison (76 adverbes pour 10 000 mots contre 80 chez Ernest Hemingway, mais 140 chez J.K. Rowling, cf. tableau infra) : "I never says -she says softly. If it's not already soft, you know, I have to leave a lot of space around it so a reader can hear that it's soft" explique Toni Morrison.

L'ouvrage se poursuit en analysant la fréquence des marqueurs masculins et féminins selon que les auteurs sont des femmes ou des hommes, ce chapitre est beaucoup moins convaincant. La fréquence d'utilisation des points d'exclamation, faible chez Ernest Hemingway (59/100 000 mots, élevée chez James Joyce 1105/100 000mots, 2102 pour Finneganswake)... Et ainsi de suite avec la fréquence des répétitions et des clichés, l'étude les premières phrases d'un livre (incipit), la mention de la météo dans cette première phrase... Difficile de comparer The State of the Union prononcé devant le Congrès en 1769 avec le même discours diffusé à toute la nation par les médias (radio et télévision) maintenant : en conclure de l'affaiblissement culturel de la population américaine est un peu simplificateur.

Lire autrement, écrire autrement surtout?  En comptant. Questions qui dérivent de ce travail. Des logiciels d'aide à l'écriture (productivité) et peut-être à la lectures ont à imaginer.

Ouvrage passionnant : toutefois, on voudrait en savoir davantage, dépasser le stade des curiosités et de l'intelligence naturelle.
Hélas, nous sommes en présence d'une sorte d'inventaire d'objets langagiers séparés, isolés. Nulle relation n'est dégagée entre les mots (corrélations, co-occurrences, etc.). Pour cela, il faudrait aller plus loin, mobiliser des clusters et le machine learning... et l'intelligence artificielle.

o.c. p. 13