Musique et IA : lune de miel ou noces funèbres ?

La porte d’entrée ne paie pas de mine. Elle s’ouvre, et derrière se cache un monde, celui de lendemains probables. Dès le vestibule, où flotte une odeur de café, on a l’impression de mettre les pieds dans un centre de recherche pour pionnier·ères...

Musique et IA : lune de miel ou noces funèbres ?

REJOINDRE L'ÉQUIPE DE RÉDACTION

Tu penses avoir un don pour la rédaction ?
Contacte-nous dès maintenant pour rejoindre notre équipe de bénévoles.

POSTULER

REJOINDRE L'ÉQUIPE DE RÉDACTION

Tu penses avoir un don pour la rédaction ?
Contacte-nous dès maintenant pour rejoindre notre équipe de bénévoles.

POSTULER

REJOINDRE L'ÉQUIPE DE RÉDACTION

Tu penses avoir un don pour la rédaction ?
Contacte-nous dès maintenant pour rejoindre notre équipe de bénévoles.

POSTULER

La porte d’entrée ne paie pas de mine. Elle s’ouvre, et derrière se cache un monde, celui de lendemains probables. Dès le vestibule, où flotte une odeur de café, on a l’impression de mettre les pieds dans un centre de recherche pour pionnier·ères du voyage spatial qui ne verront peut-être jamais la 1ère base lunaire qu’ils et elles auront contribué à élaborer. Le futur est le quotidien de la trentaine de chercheur·ses qui franchissent chaque jour le seuil de ce bâtiment parisien niché entre la rue Mouffetard et l’École normale supérieure (ENS, rue d’Ulm), à quelques encablures du Panthéon.

“Nous sommes un laboratoire de recherche fondamentale”, précise d’emblée et comme pour dissiper tout malentendu Michael Turbot, technology promotion manager chez Sony Computer Science Laboratories, entité plus connue sous le sigle de Sony CSL, établie dans la capitale française depuis 1996. “Recherche fondamentale”, ce qui implique que toutes les activités ici sont tournées vers la production de savoir, la compréhension et la mise à l’épreuve d’hypothèses.

“Nous partons du principe qu’une IA ne sera jamais créative” Michael Turbot

Cette structure, émancipée de la maison de disques de la firme japonaise et dépendant directement du siège à Tokyo, travaille au développement d’intelligences artificielles dans les domaines du langage, du développement durable, de la créativité et de la musique, son 1er pôle d’activité. Et cela sans deadline ni objectifs commerciaux, les prototypes pensés et fabriqués entre ces murs n’ayant pas vocation à être vendus mais à être éprouvés et utilisés dans un cadre défini, selon une éthique martelée tout au long de notre visite, tandis que nous nous intéressons à la place que l’IA occupera, et occupe déjà un peu, dans le processus de création musicale :

“Nous partons du principe qu’une IA ne sera jamais créative, et que si un artiste ne l’est pas, il ne le deviendra pas davantage en ayant recours à l’IA. La question qu’il faut se poser, c’est de savoir si, à la fin, c’est le musicien qui a créé l’œuvre ou si c’est la machine. Ici, on voit l’IA comme un assistant à la création et non comme quelque chose qui va faire le travail à ta place. On s’efforce de rentrer dans le workflow des artistes”, nous explique Michael Turbot.

Une nouvelle approche créative

À l’instar d’artistes tel·les que la cheffe d’orchestre et compositrice Uèle Lamore ou le chanteur et compositeur Chaton, le Lillois Jérémy Benichou a ainsi pu profiter à sa guise des outils développés par Sony CSL. De passage à Paris, il nous reçoit dans le sous-sol du laboratoire, où se trouve le studio. Guitariste de rock à la base (le genre à plaquer de longs soli les cheveux au vent), il bascule vers l’électronique avec la découverte de Skrillex au début des années 2010, avant de se faire connaître avec le duo electropop Diva Faune, puis de se lancer en solo, en marge de celui-ci, sous le sobriquet Whim Therapy.

C’est en tant que tel qu’il est entré pour la 1ère fois ici, en quête d’une nouvelle approche créative : “Ils m’ont dit : ‘On te file nos outils, tu t’en sers et tu nous fais des feedbacks.’ Ma mission ne consistait qu’à leur rapporter si oui ou non ils s’inséraient bien dans mon workflow.”

Très vite, il participe à l’AI Song Contest, concours de chanson pour musique assistée par intelligence artificielle, avec le titre Let It Go, une sorte de soul blanche perfusée à l’électronique. Il ne remporte pas les suffrages du jury mais parvient à convaincre le public : “Ce n’était pas assez nerd pour eux. Mon morceau, si tu n’expliques pas aux gens qu’il y a de l’IA dedans, ils ne le savent pas forcément.” Devant nous, il passe en revue les prototypes qui l’ont assisté dans la composition d’I Tried to Make Music with AI and This Happened, un EP de quatre titres sorti l’année dernière.

“L’IA me permet d’échapper à une forme d’uniformisation” Whim Therapy

Aujourd’hui, il existe une vingtaine de modules chez CSL, tous dédiés à une seule tâche (basse, batterie, piano, synthétiseurs…), qui se nourrissent des sons et patterns que leur donnent les artistes qui les manipulent et en mesure d’égaler en une semaine l’équivalent de douze ans d’apprentissage au conservatoire.

Ce jour-là, par exemple, Whim Therapy s’amuse avec PIA, un plug-in capable de combler un trou dans une partition en proposant de raccrocher les wagons entre deux suites d’accords ; Notono, sorte de palette sonore qu’il décrit comme étant au croisement de Paint et d’un outil de sound design, à l’interface ludique ; ou encore BassNet, qui génère des lignes de basse, et dont il est fier de dire qu’il en a dévoyé la fonction pour obtenir un riff qui se rapprocherait davantage d’un chorus de guitare. “Les automatismes sont l’ennemi de la composition. L’IA me permet d’échapper à une forme d’uniformisation. Je ne m’en sers pas dans un but performatif, mais plutôt comme d’un nouveau synthé”, nous dévoile-t-il.

Notre visite chez Sony remise momentanément au placard les fantasmes qui prédisent la fin des créateur·rices au profit des machines toutes-puissantes. Établie d’un point de vue théorique depuis les années 1950, mais rendue concrète depuis l’avènement des big data et des super-serveurs dans les années 2000, la technologie des réseaux de neurones artificiels, qui permet aux ordinateurs, sur le modèle du cerveau humain, de se programmer seuls, de s’adapter à des situations nouvelles et de prendre une décision via un processus d’apprentissage profond (connu aussi sous le terme de deep learning) ou algorithmique, va dès lors fournir des résultats bluffants.

“L’intérêt de l’IA pour le musicien, c’est de voir sa créativité augmenter, élargir son propre style” Jean-Michel Jarre

La démocratisation progressive de certains outils qui utilisent l’intelligence artificielle, outre les enjeux politiques, sécuritaires et industriels que cette technologie soulève, achève aujourd’hui d’ouvrir des horizons nouveaux.

C’est ainsi que nous avons accès aujourd’hui à ChatGPT (développé par la start-up américaine OpenAI et dans laquelle le géant Microsoft a investi des milliards), un agent conversationnel capable d’avoir une meilleure note que le 1er de la classe au bac philo ou d’écrire un article valable, ou encore à Midjourney, un générateur d’images en mesure de produire n’importe quelle illustration ultraréaliste à partir d’une demande textuelle : des fausses paparazzades montrant Donald Trump aux prises avec la police américaine au pape François en doudoune blanche que Drake n’aurait pas reniée. Deux images qui ont beaucoup tourné dans la presse et sur les réseaux sociaux ces dernières semaines.

© Adeline Schöne pour Les Inrockuptibles

Du côté de la composition, de la création musicale et de la musique pop en particulier, les choses semblent en revanche beaucoup moins abouties, notamment parce que la majorité des outils ne sont pas à la disposition du public et que la recherche s’est longtemps cantonnée aux musiques savantes.

Les modèles génératifs – tels que MusicLM, prototype du géant Google capable de générer des sons mais aussi des mélodies complexes à partir d’une description textuelle – impressionnent, mais n’offrent pas, pour l’heure, de perspectives gratifiantes pour les artistes. Jean-Michel Jarre, toujours à la pointe, au téléphone : “On a longtemps eu des outils très maladroits, développés par des mathématiciens tous obsédés par Jean-Sébastien Bach, parce que la musique de Bach est la plus facile à coder. Ces vingt dernières années, il en sortait donc des sortes de variations à la Bach. Ce n’était pas si intéressant que cela. L’intérêt de l’IA pour le musicien, à l’instar de la réalité augmentée, c’est de voir sa créativité augmenter, élargir son propre style, étendre son propre champ.”

Imitation stylistique

François Pachet, ancien directeur de Sony CSL, aujourd’hui à la tête du Spotify Creator Technology Research Lab, fait à peu près le même constat : “Contrairement à l’utilisation de l’intelligence artificielle dans d’autres domaines, comme le jeu de go par exemple, où l’IA surpasse l’homme de façon définitive, en musique, ce n’est pas clair. On entend des trucs, on se dit que c’est pas mal, mais on peut faire mieux. Pour battre le champion du monde de go, le problème est très bien posé : il faut que la machine gagne.

En musique, on ne sait pas trop qui il faut battre. Les ambitions au départ, c’était de composer des choses extraordinaires. Et ce qu’il se passe aujourd’hui, c’est qu’on a plutôt des outils de production et non de composition. Moi, ce qui m’intéresse, c’est le génie de la composition, la mélodie. Et dans ce domaine, il n’y a rien de convaincant. Aujourd’hui, il y a un problème bien défini, c’est l’imitation stylistique : vous avez un ensemble de morceaux ou des partitions, et vous voulez créer un autre machin dans le même style. Ça colle. Le problème, c’est que les musiciens, même si ça les fait marrer, ils s’en foutent un peu de ça.”

Chercheur à l’Institut de recherche et coordination acoustique/musique (Ircam), l’un des centres de recherche appliquée à la musique les plus prestigieux au monde, Jean-Louis Giavitto souligne, lui, la difficulté d’alimenter en data les outils pour les “entraîner” : “Avec ChatGPT, OpenAI est allé regarder toutes les pages web du monde pour collecter les données. Et il en faut une quantité monstrueuse ! Pour Midjourney et Dall-E, il faut un alignement texte-image, on y arrive parce qu’il y a énormément d’images avec du texte autour. On a beaucoup moins cela avec la musique. Et on sait moins faire. C’est donc un peu la course aux corpus, dont on a besoin pour entraîner ces machines.”

Au cœur du nuage

Également croisé dans les couloirs de l’Ircam, Antoine Caillon est un jeune chercheur ayant notamment travaillé au développement de MusicLM, également à l’origine, entre autres, d’un plug-in de synthèse audio-neuronale baptisé RAVE, capable de jouer avec l’artiste en temps réel en transformant un son sous nos yeux.

Pour décrire le cœur des prototypes génératifs, pensés pour répondre à des prompts (le brief de l’utilisateur, pour la faire courte), il utilise la métaphore du “nuage de points” : “Ce qui est au centre, c’est tout ce qui est classique, pop, ultra-normé, là où l’on trouve les suites d’accords utilisés en permanence. Plus tu t’éloignes, plus tu vas te retrouver avec des styles un peu étranges, des structures rythmiques différentes, peut-être du jazz. Et ensuite, tu t’écartes encore, et tu vas être sur de l’expérimental, du noise, du drone. En d’autres termes, si tu es capable de décrire avec précision l’évolution d’une structure musicale à partir d’une connaissance très classique et très cadrée, tu peux te dire que tu es au milieu du nuage.

Le problème des modèles génératifs, c’est qu’ils sont entraînés de manière à minimiser une erreur. C’est d’ailleurs leur but que de faire le moins d’erreurs possible. C’est pour cela qu’ils sont décevants en termes de composition, parce qu’on leur demande de tout faire de A à Z. Néanmoins, l’élément de surprise ne vient pas de la machine en elle-même, mais de son conditionnement par l’humain.”

Du chaos brumeux de la musique des Stooges dans les années 1960 à l’éthique punk DIY des années 1970-1980, en passant par les scènes lo-fi et les accidents de studio ayant transformé un simple single en hit intemporel, que n’a-t-on pas écrit sur les vertus du hasard, de l’amateurisme et de l’irrationalité dans la pop music ?

La magie qui opère sur une note dissonante, la rondeur d’un orgue mal branlé, le souffle non intentionnel provoqué par un ampli mal branché sont autant de facteurs qui feront peut-être la différence entre une chanson “populaire” et une chanson “signifiante”, c’est-à-dire qui marquera son temps et celui des générations qui suivront. Pour autant, l’être humain n’a pas besoin d’IA pour sortir à la pelle des chansons anecdotiques ou des pseudo-tubes manufacturés en série et taillés dans le même patron. Si la machine pioche dans le cœur du nuage pour combiner les divers éléments, c’est précisément parce que c’est ce qu’elle a sous la main.

Agrandir sa bulle

Alors, qu’attendre de l’intelligence artificielle ? “Qu’elle nous surprenne, répond Jean-Michel Jarre. C’est l’une des définitions de l’inspiration. Dans le fond, comment a-t-on une idée ? Une idée survient à la suite d’événements et d’informations inattendues. L’IA, dans la manière dont je la perçois, doit pouvoir permettre cela.” François Pachet, également guitariste de jazz – une pratique qu’il qualifie de sportive –, convoque quant à lui les théories pédagogiques du psychologue russe Lev Vygotski :

“Il parlait de Zone proximale de développement (ZPD) chez l’enfant. En gros, il y a une bulle autour de lui de choses qu’il sait faire et le but de la pédagogie est de l’emmener légèrement au-delà de cette frontière. C’est exactement ce que peut faire l’IA pour un musicien et c’est ce que dit Jean-Michel Jarre quand il prétend vouloir être surpris : il veut évoluer dans sa bulle, mais aller légèrement au-delà. Dans le fond, ce n’est pas la qualité intrinsèque de la musique qui compte, mais son appropriation.

La question est de savoir si c’est moi qui l’ai faite. Si vous avez un bouton qui vous génère un truc génial, il est fort probable que ça ne vous intéresse pas. Aucun artiste au monde ne voudra mettre son nom sous quelque chose qu’il n’a pas fait. Le machine learning ne fait que de l’imitation stylistique. Ce qui est bien, mais ça ne suffit pas. La création, ce n’est pas que de l’imitation stylistique.”

Pachet, du temps où il dirigeait le labo de Sony, avait contribué à créer Flow Machines, 1er prototype qui a prouvé que l’IA, dans la musique pop, pouvait avoir de l’intérêt. En 2016, l’outil avait même généré Daddy’s Car, un morceau inspiré du style des Beatles. “Cette expérience nous a fait changer de direction : est-ce vraiment le rôle d’un laboratoire de faire de la musique à la place des artistes ?”, nous dévoilera Michael Turbot.

Doppelgänger

Récemment, Jean-Michel Jarre a mis au point une application appelée EōN dans le but de réaliser un vieux fantasme de musicien qui est de mettre en boîte un album infini et perpétuel, et ainsi proposer un nouveau modèle créatif pensé comme une extension autonome de l’artiste : “À partir de patterns musicaux et de séquences qui peuvent aller de quelques secondes à deux ou trois minutes, l’algorithme peut me proposer des réarrangements différents en permanence. Et ces combinaisons peuvent se déployer dans le temps. C’était le rêve de musiciens comme Mozart, qui ne pouvait pas faire jouer des orchestres ad vitam aeternam. Aujourd’hui, c’est quelque chose que l’on peut faire”, s’enthousiasme-t-il.

À l’Ircam, plus que l’artiste augmenté plébiscité par Jean-Michel Jarre, c’est l’idée du dédoublement de l’artiste qui est discutée, de façon à penser l’intelligence artificielle comme une sorte de doppelgänger capable de faciliter le travail de recherche du musicien dans son propre champ. Une nouvelle piste pour aller au-delà de sa bulle ?

Jean-Louis Giavitto : “Il y a beaucoup d’activité musicale exploratoire chez nous. Donc les compositeurs passent leur temps à écouter des choses. Et dans ce qu’ils écoutent, il y a des choses qu’ils gardent et d’autres qu’ils jettent. La question qui se pose est : peut-on faciliter pour eux cette exploration ? Quand un compositeur commence à entendre son matériau pour un projet donné, on peut en même temps entraîner une espèce de clone ou de double qui, lui, de fait, va s’imbiber implicitement du projet en cours, et donc va pouvoir explorer des dizaines et des centaines d’heures de musique générée, de façon que le compositeur ne passe pas cent heures à les écouter, mais en entende un sous-ensemble pertinent.”

Vers une obsolescence de l’être humain ?

Un tel clone, entraîné selon le modèle d’exploration du compositeur à qui il emprunte sa méthode, peut-il faire le pas de côté recherché par les musicien·nes et provoquer l’acmé de l’inattendu ? “C’est la question, poursuit le scientifique. Parce que s’il apprend, il va nécessairement y avoir un côté normatif. Donc, comment conserver le fait qu’il amène quelque chose d’intéressant et éventuellement de surprenant ? On se trouve avec une problématique de système impertinent : je lui demande quelque chose, mais en fait, la vraie réponse, ce n’est pas répondre précisément à ma question, c’est répondre à côté, un à-côté informatif et fertile. Une machine impertinente, ça c’est compliqué.”

Citant la chute du livre d’André Malraux Esquisse d’une psychologie du cinéma, Jean-Louis Giavitto rappelle que l’intelligence artificielle est “par ailleurs une industrie”. Les intérêts économiques du développement de ces outils dépassent déjà les considérations artistiques des musicien·nes, même s’ils offrent à ces dernier·ères un nouveau terrain de jeu.

Quid de l’obsolescence de l’être humain, dépassé par les machines et de la menace qui plane déjà sur certains métiers du son, et plus généralement sur le marché de l’emploi ? Les avis sont partagés, entre les plus pessimistes et ceux et celles qui n’y croient pas du tout. Récemment, plusieurs chercheur·ses et une poignée de personnalités (dont Elon Musk) ont appelé à un moratoire sur la recherche jusqu’à la mise en place de garde-fous.