dimanche 27 septembre 2015

Machine learning : le mythe du grand algorithme


Pedro Domingos, The Master Algorithm. How the Quest for the Ultimate Learning Machine Will Remake Our World, New York, 2015, Basic Books, index $18,07, (eBook)

La thèse centrale du livre est celle d'un grand algorithme capable d'apprendre à partir des données disponibles, capable de créer les algorithmes nécessaires, de les combiner pour exploiter ces données de manière flexible et ouverte, et en tirer profit : "the ultimate learning machine", une sorte de metalearner (staked generalisation ?), une machine qui apprend à apprendre, algorithme des algorithmes, qui se construit elle-même : “Machine learning is something new under the sun: a technology that builds itself.”
Moins que de métaphysique, il sera donc surtout question dans ce livre de lever les secrets du machine learning, "le moteur qui transforme les données en connaissance ("the engine that turns data into knowledge").

L'auteur est Professeur de "Computer Science and Engineering" à l'Université de Washington. D'abord, il fait partager aux lecteurs son enthousiasme pour l'algorithmique qui a déjà changé notre monde. Ensuite, il montre comment elle va le changer davantage encore.
La vulgarisation classique des premières pages laisse bientôt la place à des problématiques et des raisonnements plus complexes. On n'est jamais très loin d'exposés mathématiques, simplifiés et limités, certes, mais qui demandent aux non spécialistes un effort d'attention et d'approfondissement.

En dix chapitres, Pedro Domingos parcourt l'histoire de l'algorithmique et des différents modes de raisonnement mobilisés successivement, et de manière polémique, par le machine learning. Ce sont dit-il, les 5 tribus du machine learning. L'histoire commence dans les années 1940 avec le perceptron (Frank Rosenblatt), puis les neurones et la recherche en biologie. L'auteur passe en revue la succession des écoles d'algorithmique : symbolistes (déduction inverse), connectionnistes ("back-propagation", rétro-propagation du gradient), évolutionnistes (algorithmes génétiques), bayésiens (inférence), analogistes (machines à vecteurs de support, support vector machines, ). Ces 5 tribus ensemble forment "le grand algorithme", "the five facets of a single universal learner". L'ouvrage évoque différentes techniques auxquelles recourt couramment le machine learning : probabilités conditionnelles, réseaux bayesiens, chaînes de Markov, complexité, recherche des plus proches voisins (nearest neighbors), etc.

L'auteur ne manque jamais d'anecdotes significatives et drôles, pour détendre ses lecteurs et illustrer ses démonstrations. Ainsi, exposant la différence entre l'approche linguistique (Noam Chomsky) et du machine learning, il cite Fred Jelinek, spécialiste de reconnaissance automatique de la parole (speech recognition) qui prétendait que, chaque fois qu'il excluait un linguiste de son labo, les performances de l'algorithme s'amélioraient (mais lui même avait été influencé par le linguiste Roman Jakobson). L'auteur évoque aussi Andrei Markov appliquant, lettre après lettre, le calcul des probabilités au texte de Eugène Onéguine, roman d'Alexandre Pouchkine, ce qui conduira aux fameuses et omniprésentes chaînes de Markov, qui sont au principe du PageRank de Google et de l'écriture prédictive.

En fin d'ouvrage, l'auteur effectue une mise au point bienvenue sur la notion de singularité technologique (singularity), chère à la science fiction (cf. Synth en séries), transférée des mathématiques par Vernor Vinge, mathématicien et auteur de romans de science fiction (The Coming Technological Singularity, 1993) et développée ensuite par Ray Kurzweil (Singularity is near, 2005). La singularité désigne le moment mythique où l'intelligence artificielle dépasse l'intelligence humaine, moment que Pedro Domingos propose d'appeler Point Turing ; la singularité ne peut être imaginée sans le développement d'un machine learning capable de concevoir des programmes. Selon lui, Ray Kurzweil sur-ajuste (overfitting) : il voit des exponentielles partout (law of increasing returns), même dans les fonctions linéaires où il voit des exponentielles qui n'ont pas encore décollé. Avec ce débat, on touche au messianisme de l'algorithme universel, capable d'induction, sorte de "savoir absolu" ("l'esprit se sachant lui-même comme esprit", Hegel) qui serait atteint au terme d'une phénoménologie du machine learning.

Ouvrage important pour situer l'intelligence artificielle dans la compréhension des médias numériques. De lecture agréable, parfois rude. Au-delà des techniques, l'algorithmique telle que la raconte Pedro Domingos se révèle un ensemble de techniques de pensée, techniques invisibles au commun des mortels utilisateurs. L'auteur en entr'ouvre la boîte noire : boîte de Pandore ?

Aucun commentaire:

Enregistrer un commentaire