Vintage microphone on stage with warm lights and smoke.
Généré par l'IA / Generated using AI
π Science et technologies
Quand la science se met au service de la créativité

Créativité : L’IA peut désormais composer de la musique

avec Geoffroy Peeters, professeur en sciences des données à Télécom Paris (IP Paris)
Le 12 février 2025 |
7 min. de lecture
Geoffroy Peeters
Geoffroy Peeters
professeur en sciences des données à Télécom Paris (IP Paris)
En bref
  • Aujourd’hui, les algorithmes de classement, d’indexation et d’analyse des données musicales disposent de suffisamment de données pour fonctionner en autonomie.
  • Avec les progrès du deep learning, la musique peut désormais être analysée comme un ensemble d’éléments distincts (voix, batterie, basse, etc.).
  • Cette capacité à extraire les éléments constituant la musique a rendu possible leur recontextualisation, leur modification ou encore leur clonage dans d’autres contenus.
  • Il est désormais possible pour certains modèles de générer de leurs propres musiques, ce qui reste toutefois un défi technique majeur.
  • Un des enjeux de ces pratiques est la possibilité pour ces modèles de générer du contenu véritablement nouveau, et non pas simplement de reproduire ce qu’ils ont déjà appris.

En 1957, un ordi­na­teur écrit pour la pre­mière fois une par­ti­tion musi­cale. L’ILLIAC I – conçu par Leja­ren Hil­ler et Leo­nard Isaac­son à l’Université de l’Illinois – com­pose un qua­tuor à cordes1. La pro­messe d’un pro­gramme infor­ma­tique capable de géné­rer de la musique s’ancre dans la réa­li­té. Après tout, la musique n’est qu’affaire de struc­tures, de règles, et de mathé­ma­tiques. Rien d’inconnu pour un pro­gramme infor­ma­tique… à un détail près : la création.

Ce qui fas­cine dans cette suite, c’est qu’elle a été com­po­sée par un ordi­na­teur, et ce, en sui­vant un modèle pro­ba­bi­liste éton­nam­ment proche de ceux uti­li­sés aujourd’hui2. Seule­ment, elle a été créée selon des règles éta­blies par un com­po­si­teur humain, révi­sée par ce der­nier, puis inter­pré­tée par un orchestre. Résul­tat : une appli­ca­tion rigide des règles, lais­sant peu de place à l’innovation artistique.

Aujourd’hui, la tech­no­lo­gie a radi­ca­le­ment évo­lué : n’importe qui, depuis son ordi­na­teur, peut se la jouer com­po­si­teur. Grâce aux algo­rithmes de deep lear­ning et à l’essor de l’IA géné­ra­tive, l’IA musi­cale a pris un tour­nant inté­res­sant. Car avant qu’une machine puisse réel­le­ment pro­duire une œuvre musi­cale de toute pièce, il fal­lait encore qu’elle la com­prenne, et non qu’elle l’imite. 

Et c’est bien là tout l’enjeu d’une quête scien­ti­fique enta­mée il y a plus de vingt ans : non pas faire com­po­ser les machines, mais leur apprendre à écou­ter. Recon­naître un style, clas­si­fier une œuvre, ana­ly­ser une struc­ture musi­cale… Bien avant l’explosion de la géné­ra­tion musi­cale assis­tée par IA, des cher­cheurs ten­taient déjà de faire entendre la musique aux machines. Par­mi eux, Geof­froy Pee­ters, pro­fes­seur à Télé­com Paris et préa­la­ble­ment direc­teur de recherche à l’IRCAM. Son tra­vail sur le sujet pour­rait nous aider à répondre à cette ques­tion : une machine peut-elle véri­ta­ble­ment com­prendre la musique, avant même de pré­tendre en créer ?

Comprendre la musique

« Au début des années 2000, la stan­dar­di­sa­tion inter­na­tio­nale d’un for­mat : le .mp3 (MPEG‑1 Audio Layer III) a fait appa­raître la digi­ta­li­sa­tion des biblio­thèques musi­cales (aujourd’hui pla­te­formes de strea­ming), d’où un accès à un très vaste cata­logue de musique pour les uti­li­sa­teurs, et donc un besoin de clas­si­fier, indexer cha­cune des musiques la com­po­sant », explique Geof­froy Pee­ters. De là est né un nou­veau champ de recherche : com­ment déve­lop­per un moteur de recherche musi­cale ? « Ces tech­no­lo­gies d’analyses musi­cales sont basées sur l’analyse audio, le trai­te­ment du signal, et étaient, au début, human dri­ven– l’apprentissage se fai­sait à par­tir de règles ren­sei­gnées par l’homme », ajoute-t-il. Car la musique n’est pas un simple enchaî­ne­ment de sons aléa­toires, mais une struc­ture orga­ni­sée sui­vant une gram­maire rigou­reuse, par­fois aus­si forte, voire plus, que celle du lan­gage. Un style de musique étant déter­mi­né par un cer­tain type d’accord, un cer­tain tem­po, une struc­ture har­mo­nique, etc., « apprendre ces dif­fé­rentes règles à une machine ne sem­blait pas si com­pli­qué ».

« Ce qui défi­nit le blues, par exemple, est la répé­ti­tion d’une grille de 12 mesures basées sur l’enchainement de 3 accords spé­ci­fiques, éla­bore le pro­fes­seur. Ces règles, que nous connais­sons très bien, seront enco­dées dans un ordi­na­teur, afin que celui-ci puisse clas­si­fier la musique selon le genre. » Cela étant, la musique ne se défi­nit pas seule­ment par son genre, elle peut trans­mettre une humeur, ou être plus adé­quate pour un contexte – que ce soit pour faire du sport, ou pour médi­ter. Bref, bien des élé­ments aux règles plus dif­fuses que celles déter­mi­nant le genre.

« Pour ten­ter de répondre à cette com­plexi­té, Pan­do­ra Music, la pla­te­forme de strea­ming musi­cale la plus impor­tante des États-Unis, a créé le pro­jet Génome Musi­cal, deman­dant à des êtres humains d’annoter plus de 1 mil­lion de titres sur une base de 200 cri­tères dif­fé­rents. » Ce tra­vail colos­sal a per­mis d’accumuler suf­fi­sam­ment de don­nées pour per­mettre le déve­lop­pe­ment d’approches dites data dri­ven (dans lequel la connais­sance est apprise par la machine – le machine lear­ning – à par­tir de l’analyse de data, les don­nées anno­tées). Par­mi les tech­niques de machine lear­ning, les algo­rithmes de deep lear­ning sont rapi­de­ment appa­rus comme les plus per­for­mants et ont per­mis dans les années 2010 des avan­cées ful­gu­rantes. « Plu­tôt que faire des modèles human dri­ven, avec des mathé­ma­tiques com­plexes du trai­te­ment du signal, des règles de déci­sion manuelles nous pou­vons main­te­nant tout apprendre de manière com­plè­te­ment auto­ma­tique à par­tir des don­nées », com­plète Geof­froy Peeters.

Au fil du temps, ces modèles entraî­nés ont per­mis la mise en place des algo­rithmes de clas­si­fi­ca­tion, mais aus­si de recom­man­da­tion des pla­te­formes en ligne de musique comme Dee­zer ou Spotify. 

Apprendre à écouter

Le deep lear­ning va éga­le­ment engen­drer un chan­ge­ment de para­digme.  Alors que la musique était consi­dé­rée comme un tout, elle peut doré­na­vant être ana­ly­sée comme un com­po­sé d’éléments. « Jusqu’en 2010, nous sommes inca­pables de sépa­rer la voix, la bat­te­rie, la basse d’un mix de manière propre – c’est-à-dire uti­li­sable, sou­ligne-t-il. Alors que si la voix pou­vait être extraite, la mélo­die chan­tée pour­rait être recon­nue pré­ci­sé­ment, carac­té­ri­sée et ana­ly­sée plus fine­ment. Le deep lear­ning va per­mettre cela en entraî­nant des sys­tèmes pre­nant en entrée un mor­ceau mixé, c’est-à-dire avec toutes les sources mélan­gées (les voix, la bat­te­rie, la basse…) pour en sor­tir les dif­fé­rentes sources démixées, autre­ment dit sépa­rées. » Pour entrai­ner un tel sys­tème il faut cepen­dant des don­nées ; même beau­coup. Au début, cer­tains entraî­ne­ments pou­vaient se faire avec un accès, sou­vent limi­té, aux enre­gis­tre­ments démixés des mai­sons disques. Jusqu’à ce que Spo­ti­fy, et son immense cata­logue fai­sant office de don­nées, amène un algo­rithme convain­cant de sépa­ra­tion de sources. S’en est sui­vi une mul­ti­tude de nou­veaux modèles tou­jours plus impres­sion­nants les uns que les autres, dont les modèles fran­çais Splee­ter de Dee­zer, qui est open source3, ou Demucs de Meta-AI à Paris.

Cette ana­lyse indi­vi­duelle de chaque élé­ment qui com­pose une musique a cham­bou­lé l’entraînement des IA. « Tout cela a ouvert la porte à de nom­breuses choses, dont l’IA géné­ra­tive déve­lop­pée aujourd’hui en musique. Par exemple, avec la pos­si­bi­li­té de sépa­rer la voix et de l’analyser dans les détails, il devient tout à fait pos­sible de la re-contex­tua­li­ser (réin­sé­rer la voix d’Edith Piaf dans le film La Môme, ou celle de John Len­non dans Now and Then des Beatles), de la modi­fier (la cor­rec­tion de hauteur/justesse est très uti­li­sée) de la recréer (la voix du géné­ral de Gaulle pro­non­çant l’appel du 18 juin), mais éga­le­ment de la clo­ner. Des faits récents montrent l’étendue que cette der­nière uti­li­sa­tion peut avoir, avec des inquié­tudes dans le monde du dou­blage de ciné­ma, la crainte des deep­fakes, mais aus­si une musique inédite avec Drake et The Weeknd, qui n’était pour­tant pas chan­tée par eux. » 

Devenir compositeur

Les pre­mières recherches en IA musi­cale avaient des objec­tifs bien défi­nis : clas­ser, ana­ly­ser, seg­men­ter la musique, et, pour­quoi pas, assis­ter le com­po­si­teur dans sa créa­tion. Mais avec l’émergence des modèles géné­ra­tifs, ces tra­vaux sont deve­nus la base d’une toute nou­velle approche : la géné­ra­tion d’un mor­ceau de musique (donc de son signal audio) à par­tir de rien, ou juste d’un « prompt » tex­tuel. « Le pre­mier acteur qui va se posi­tion­ner dans la géné­ra­tion de musique à par­tir de rien est Juke­box d’OpenAI, constate Geof­froy Pee­ters. Ils ont en quelque sorte recy­clé ce qu’ils fai­saient pour ChatGPT : uti­li­ser un modèle de lan­gage (Large-Lan­guage-Model ou LLM) – modèle, dit auto­ré­gres­sif, entraî­né à pré­dire le mot sui­vant, en fonc­tion des pré­cé­dents. »

Trans­po­ser ce prin­cipe au domaine musi­cal est un défi tech­nique majeur. Contrai­re­ment au texte, l’audio n’est pas consti­tué de mots dis­tincts que l’IA peut trai­ter comme des tokens. « Il fal­lait tra­duire le signal audio en une forme com­pré­hen­sible par le modèle, conçoit-il. Chose pos­sible avec des auto-enco­deurs quan­ti­fiés, qui apprennent à pro­je­ter le signal dans un espace quan­ti­fié, l’espace des tokens, et à recons­truire le signal audio à par­tir de ces tokens. Il ne reste plus qu’à modé­li­ser l’enchainement tem­po­rel des tokens d’un mor­ceau de musique ce qui est fait grâce à un LLM. Ensuite, vient la géné­ra­tion, le LLM est uti­li­sé à nou­veau pour géné­rer une nou­velle suite de tokens (dont l’enchainement est le plus pro­bable), celles-ci sont ensuite conver­ties en audio par le déco­deur de l’auto-encodeur quan­ti­fié. »    

Des modèles aux résul­tats encore plus impres­sion­nants ont sui­vi, comme Stable Audio de Sta­bi­li­ty AI. Ce type de modèle uti­lise le prin­cipe de dif­fu­sion (popu­la­ri­sé pour la géné­ra­tion d’images de très haute qua­li­té, comme dans Mid­jour­ney ou Stable Dif­fu­sion), mais l’idée reste la même : trans­for­mer le signal audio en don­nées quan­ti­fiées lisibles par leur modèle de diffusion.

Pour per­mettre de contrô­ler un mini­mum la géné­ra­tion musi­cale obte­nue, on va « condi­tion­ner » les modèles géné­ra­tifs sur du texte ; ce texte est soit une des­crip­tion du signal audio (son genre, son humeur, son ins­tru­men­ta­tion), soit ses paroles. Pour cela, l’entraînement des modèles pren­dra en compte éga­le­ment un texte cor­res­pon­dant à une musique don­née en entrée. C’est donc pour cela que le modèle Suno peut être « promp­té » avec du texte. C’est là cepen­dant qu’apparaissent les limites de leur capa­ci­té créa­tive, et les ques­tions de pro­prié­tés intel­lec­tuelles. « Ces modèles souffrent beau­coup de mémo­ri­sa­tion, pré­vient Geof­froy Pee­ters. Par exemple, en deman­dant dans un prompt Suno de faire une musique accom­pa­gnée des paroles de Bohe­mian Rhap­so­dy, Suno finis­sait par géné­rer une musique très proche de l’originale. Ce qui pose tout de même des pro­blèmes de copy­rights, pour la nou­velle musique tout juste créée, dont les droits appar­tiennent à l’humain der­rière le prompt, et celle uti­li­sée pour l’entraînement du modèle, dont ils n’avaient pas les droits. » [N.D.L.R. : Aujourd’hui, Suno refuse ce type de géné­ra­tion, car cela ne res­pecte plus ses condi­tions d’utilisation.]

« Il y a donc un réel besoin de faire de ces outils des modèles qui génèrent du conte­nu nou­veau, et non sim­ple­ment qui repro­duisent ce qu’ils ont appris, conclut le pro­fes­seur. Les modèles d’aujourd’hui génèrent de la musique mais en créent-ils de nou­velles ? À la dif­fé­rence des syn­thé­ti­seurs audio (qui ont per­mis de créer de nou­velles sono­ri­tés), la musique est une orga­ni­sa­tion de sons (notes ou autres) repo­sant sur des règles. Les modèles sont sans doute capables de com­prendre ces règles, mais sont-ils capables d’en inven­ter de nou­velles ? Sont-ils encore au stade des per­ro­quets sto­chas­tiques, comme il est sou­vent dit ? »

Pablo Andres
1Suite d’Illiac 1 – Hil­ler, L., & Isaac­son, L. (1959). Expe­ri­men­tal Music : Com­po­si­tion with an Elec­tro­nic Com­pu­ter. McGraw-Hill.
2Chro­no­lo­gie de l’usage de l’IA en com­po­si­tion musi­cale – IRCAM (2023). Une brève chro­no­lo­gie sub­jec­tive de l’usage de l’intelligence arti­fi­cielle en com­po­si­tion musi­cale. – Agon, C. (1998). Ana­lyse de l’utilisation de l’IA en musique.
3Rap­port de l’OMPI sur l’IA et la pro­prié­té intel­lec­tuelle musi­cale. Orga­ni­sa­tion Mon­diale de la Pro­prié­té Intel­lec­tuelle (OMPI) (2021). Arti­fi­cial Intel­li­gence and Intel­lec­tual Pro­per­ty : A Lite­ra­ture Review.

Soutenez une information fiable basée sur la méthode scientifique.

Faire un don