1_son
π Science et technologies
Quand la science se met au service de la créativité

L’IA, un outil à fort potentiel pour la création musicale

avec Gaël Richard, professeur à Télécom Paris (IP Paris) et co-directeur scientifique du centre interdisciplinaire Hi! PARIS en intelligence artificielle
Le 3 septembre 2024 |
7 min. de lecture
Gaël Richard
Gaël Richard
professeur à Télécom Paris (IP Paris) et co-directeur scientifique du centre interdisciplinaire Hi! PARIS en intelligence artificielle
En bref
  • L'IA appliquée aux sons permet d’analyser, de transformer et de synthétiser des signaux sonores.
  • Les applications sont nombreuses, allant de la maintenance prédictive à l'amélioration de la réalité virtuelle, en passant par l'assistance aux personnes.
  • Les algorithmes d'IA appliqués aux sons nécessitent des méthodes spécifiques en raison de la nature temporelle et volumineuse des données sonores.
  • Les défis liés à l'IA sonore incluent son impact écologique, les questions de droits d'auteur, les enjeux éthiques, et la nécessité d'un cadre juridique adapté.
  • Le projet HI-Audio combine l'apprentissage machine et les connaissances humaines pour créer des modèles d'IA plus interprétables et contrôlables.

Depuis plus de 20 ans, les cher­cheurs uti­lisent l’intelligence arti­fi­cielle (IA) sur les signaux sonores. Ces signaux sonores pou­vant être des paroles, des musiques ou encore des sons envi­ron­ne­men­taux. Les avan­cées récentes en algo­rith­mique ouvrent la porte à de nou­veaux champs de recherche et à de nou­velles applications.

Comment l’intelligence artificielle peut-elle être utilisée pour traiter les signaux sonores ?

D’abord, l’IA peut être uti­li­sée pour faire de l’analyse sonore. C’est-à-dire qu’à par­tir d’un enre­gis­tre­ment, la machine peut recon­naître les sons (quel ins­tru­ment joue, quelle machine ou objet génère tel bruit…) et les condi­tions d’enregistrement (en direct, stu­dio, exté­rieur…). Pour citer un exemple, Sha­zam est une IA de recon­nais­sance musi­cale assez simple mais très connue.

L’IA peut aus­si être uti­li­sée pour trans­for­mer le son. Il s’agit ici par exemple de sépa­rer les dif­fé­rentes sources d’un enre­gis­tre­ment sonore pour pou­voir les remixer dif­fé­rem­ment (comme pour les appli­ca­tions de karao­ké…). Il est éga­le­ment pos­sible d’envisager de faire du trans­fert de style musi­cal d’un enre­gis­tre­ment sonore don­né ou de chan­ger les condi­tions acous­tiques de l’enregistrement (par exemple en enle­vant la réver­bé­ra­tion tout en gar­dant le conte­nu intact). Pour finir, le troi­sième grand domaine de trai­te­ment sonore par l’IA géné­ra­tive, c’est la syn­thèse. À par­tir d’un extrait musi­cal ou de cer­taines consignes, la machine peut géné­rer de la musique dans le style de cet extrait. On peut éga­le­ment lui deman­der de géné­rer une musique en lien avec un texte ou une image.

Je tra­vaille actuel­le­ment sur un gros pro­jet de recherche finan­cé par le Conseil euro­péen de la recherche (ERC) qui se nomme HI-Audio pour « Appren­tis­sage machine pro­fond, inter­pré­table et hybride pour l’a­na­lyse des sons ». Le terme « hybride » sous-entend qu’au lieu de faire de l’apprentissage uni­que­ment sur de grandes quan­ti­tés de don­nées, on intègre à nos modèles d’apprentissage des a prio­ri déduits de nos connais­sances. En effet, nous pos­sé­dons cer­taines connais­sances sur le son : le type d’instruments de musique pré­sents, le niveau de réver­bé­ra­tion d’une pièce… L’idée c’est de se baser sur ces connais­sances et d’en tirer des modèles rela­ti­ve­ment simples qui décrivent ces phé­no­mènes. Ensuite, on les insère au cœur de réseaux de neu­rones et de modèles plus com­plexes qui per­mettent d’apprendre et de décrire ce qu’on ne sait pas. Ain­si, on a des modèles qui allient inter­pré­ta­bi­li­té et contrôlabilité.

Quelles sont les spécificités des algorithmes d’IA appliqués au son ?

Un signal sonore c’est un signal tem­po­rel (une suite de don­nées ordon­née dans le temps) qui peut être plus ou moins pério­dique. Dans un pre­mier temps, chaque signal sonore a ses spé­ci­fi­ci­tés. La recon­nais­sance des ins­tru­ments et des notes dans un enre­gis­tre­ment musi­cal néces­site des tech­niques avan­cées de sépa­ra­tion de sources, per­met­tant de dis­tin­guer et d’i­so­ler chaque élé­ment sonore. En effet, contrai­re­ment à la parole où un seul ins­tru­ment (la voix) véhi­cule un mes­sage lin­guis­tique, l’a­na­lyse musi­cale doit gérer la simul­ta­néi­té et l’har­mo­nie des instruments.

Autre spé­ci­fi­ci­té de la musique : la lon­gueur des enre­gis­tre­ments. En soi, ces IA sont entraî­nées de manière assez simi­laire que pour des images ou du texte. Mais contrai­re­ment à une image, un signal sonore est une suite de nombres, posi­tifs ou néga­tifs, qui varient dans le temps autour d’une valeur de réfé­rence. Pour une seconde de musique, avec un enre­gis­tre­ment de qua­li­té CD, on a 44 100 valeurs par seconde. De même, si on a eu une minute d’enregistrement, on a 2 646 000 valeurs (44 100 x 60 secondes). Les volumes de don­nées sont très impor­tants pour une courte durée. Il est donc néces­saire d’a­voir des méthodes spé­ci­fiques pour l’IA appli­quée au son mais aus­si des moyens d’a­na­lyse très puis­sants pour pou­voir trai­ter ce volume de données.

À quels secteurs d’application pourraient profiter ces évolutions du traitement du son ? 

Le trai­te­ment du signal sonore ou plus géné­ra­le­ment l’IA appli­quée au son est déjà uti­li­sée dans des domaines variés. Men­tion­nons d’abord les uti­li­sa­tions indus­trielles. La parole est très sen­sible à la réver­bé­ra­tion, qui peut rapi­de­ment influen­cer l’intelligibilité. « Net­toyer » le signal sonore des bruits para­sites de l’environnement est néces­saire, notam­ment pour les com­mu­ni­ca­tions télé­pho­niques. Autre domaine à ne pas négli­ger : l’utilité de la syn­thèse d’environnements sonores dans l’industrie audio­vi­suelle. Recréer une ambiance sonore per­met de sug­gé­rer ce qui est hors champ. Ima­gi­nons une scène de film en ter­rasse d’un café. On ne sau­ra pro­ba­ble­ment pas où est situé le café : centre-ville, quar­tier rési­den­tiel, près d’un parc… En fonc­tion de l’intention de réa­li­sa­tion, le son per­met d’immerger le spec­ta­teur dans une ambiance plus riche. De même pour les jeux vidéo ou la réa­li­té vir­tuelle. Le son est un des cinq sens, nous y sommes donc très sen­sibles. Ajou­ter un habillage sonore aug­mente le réa­lisme et l’immersion dans un envi­ron­ne­ment virtuel.

Avec le déve­lop­pe­ment de l’IA appli­quée aux sons, de nou­veaux champs d’application sont envi­sa­geables. Je pense notam­ment à la main­te­nance pré­dic­tive, c’est-à-dire qu’on pour­rait détec­ter au bruit, lorsqu’un objet com­mence à dys­fonc­tion­ner. Aus­si, com­prendre l’environnement sonore peut être utile au déve­lop­pe­ment de la voi­ture auto­nome. En com­plé­ment des infor­ma­tions cap­tées par les camé­ras, elle pour­ra se diri­ger en fonc­tion du bruit alen­tour : son­nette de vélo, réac­tions des piétons.

N’ou­blions pas que le trai­te­ment de signaux sonores peut deve­nir un outil d’aide aux per­sonnes. Dans le futur, on peut ima­gi­ner qu’une IA fera la tra­duc­tion de l’en­vi­ron­ne­ment sonore, dans une autre moda­li­té, qui per­met­trait aux sourds « d’en­tendre » le monde qui les entoure. D’autre part, peut-être que l’analyse sonore aide­ra au main­tien des per­sonnes à domi­cile en détec­tant et en carac­té­ri­sant les bruits nor­maux, anor­maux et alar­mants d’une mai­son. Et c’est encore une liste non-exhaus­tive des champs d’application possibles !

Quels sont les principaux défis et enjeux liés au développement et à l’utilisation des IA en général et plus spécifiquement dans le domaine sonore ?

Un des dilemmes prin­ci­paux c’est l’impact éco­lo­gique de tels sys­tèmes. Les per­for­mances des IA géné­ra­tives en géné­ral sont cor­ré­lées à la quan­ti­té de don­nées ingé­rée et à la puis­sance de cal­cul. Bien qu’on ait des approches dites « fru­gales », les réper­cus­sions envi­ron­ne­men­tales et éco­no­miques de ces outils sont non-négli­geables. Là est l’intérêt de mon pro­jet de recherche qui explore une voie alter­na­tive d’IA hybride et plus frugale.

Autre sou­ci pour le trai­te­ment sonore : l’accès aux bases de don­nées musi­cales en rai­son des droits d’au­teur. Glo­ba­le­ment, les régle­men­ta­tions peuvent être un obs­tacle au déve­lop­pe­ment de ces IA en France. Aux États-Unis, la notion de « fair use » per­met une cer­taine flexi­bi­li­té dans l’u­ti­li­sa­tion des œuvres sous copy­right. En Europe on jongle entre plu­sieurs méthodes. Il existe tout de même, quelques bases de don­nées publiques, qui regroupent des com­po­si­tions libres de droit com­po­sées spé­ci­fi­que­ment pour la recherche. Par­fois, nous col­la­bo­rons avec des entre­prises comme Dee­zer, qui offrent un accès res­treint à leurs cata­logues pour des pro­jets spécifiques.

Les IA appli­quées aux sons posent aus­si cer­tains pro­blèmes éthiques spé­ci­fiques. Il y a notam­ment la ques­tion de la musique géné­rée par la machine et du poten­tiel pla­giat, puisque la machine a pu être entraî­née à par­tir de musiques connues et pro­té­gées. À qui reviennent les droits d’auteur de la musique géné­rée par la machine ? Quel est le prix de ces musiques géné­rées auto­ma­ti­que­ment ? Quel niveau de trans­pa­rence exi­ger sur le pro­ces­sus de créa­tion musi­cale ? Enfin, se pose la ques­tion de la contrô­la­bi­li­té des IA ou plus pré­ci­sé­ment de l’explicabilité. Il faut être en mesure d’expliquer les déci­sions prises par la machine. Repre­nons notre exemple de la voi­ture auto­nome : il faut pou­voir déter­mi­ner pour­quoi elle choi­sit de tour­ner à un ins­tant T. « C’était l’action la plus pro­bable » n’est pas une réponse suf­fi­sante, notam­ment en cas d’accident. Selon moi, il est pri­mor­dial d’intégrer les connais­sances humaines dans ces sys­tèmes d’IA et d’assurer une trans­pa­rence quant à son utilisation.

Plus géné­ra­le­ment, il est néces­saire de construire un cadre juri­dique pour ces tech­no­lo­gies en constante évo­lu­tion. Mais la France et l’Europe ont par­fois ten­dance à sur-régle­men­ter, entra­vant de fait les inno­va­tions et notre com­pé­ti­ti­vi­té à l’international. Il faut de fait iden­ti­fier et se pro­té­ger des risques de déviance et des risques éthiques de l’IA qui sont réels, mais il faut aus­si évi­ter de sur-légiférer.

Pensez-vous que de telles IA auront un impact sur les musiciens et l’industrie du son ?

L’IA aura un impact par­tout. Dans tous les métiers, toutes les entre­prises et tous les envi­ron­ne­ments, éga­le­ment dans les emplois du sec­teur musi­cal. Effec­ti­ve­ment, cela peut sus­ci­ter de l’inquiétude et des inter­ro­ga­tions, comme les musi­ciens et les brui­teurs de ciné­ma qui craignent d’être rem­pla­cés. Cer­tains métiers seront peut-être ame­nés à dis­pa­raître, mais d’autres se créeront.

D’après moi, ces IA sont des outils plus que des menaces. Elles vont ouvrir un nou­veau cata­logue des pos­sibles. En per­met­tant de jouer ensemble à dis­tance, ces IA pour­ront faire se ren­con­trer des com­mu­nau­tés de musi­ciens à tra­vers la pla­nète. Cela peut aus­si aider à démo­cra­ti­ser l’ap­pren­tis­sage de la musique, en créant des « for­ma­tions » à dis­tance ludiques et per­son­na­li­sées. C’est aus­si un outil de com­po­si­tion assez sophis­ti­qué qui peut sti­mu­ler la créa­ti­vi­té des artistes.

L’IA en soi n’est pas créa­tive. Elle repro­duit et remet en forme, mais ne crée rien. De même, selon moi l’IA ne fait pas d’art. C’est presque concep­tuel­le­ment impos­sible pour une machine de faire de l’art. L’art, même s’il n’est pas clai­re­ment défi­ni, c’est per­son­ni­fié ; c’est une forme de com­mu­ni­ca­tion humaine. Aujourd’hui, l’IA, notam­ment l’IA appli­quée au trai­te­ment sonore, n’est pas capable de cela. 

Propos recueillis par Loraine Odot

Soutenez une information fiable basée sur la méthode scientifique.

Faire un don