Accueil / Chroniques / L’IA est-elle condamnée à être un gouffre énergétique ?
Modern data center with servers
π Numérique π Énergie

L’IA est-elle condamnée à être un gouffre énergétique ?

Enzo Tartaglione
Enzo Tartaglione
professeur associé à Télécom Paris (IP Paris)
En bref
  • Qu’il s’agisse de l’entraînement d’un modèle ou de ses inférences, l’intelligence artificielle générative (IAG) est gourmande en ressources énergétiques.
  • La consommation énergétique de l’IAG due à ses inférences ne cesse d’augmenter : Amazon Web Services estime que 90 % de la demande en machine learning dans le cloud en provient.
  • À Télécom Paris, une chaire spécialisée se demande comment concilier l’essor de l’IA avec les contraintes énergétiques, sans renoncer à son potentiel.
  • L’une des pistes proposées consiste à optimiser les modèles en les divisant en une multitude d’ « experts », capables de s’activer en fonction de la tâche à accomplir.
  • Améliorer la « frugalité » de l’IAG aurait un intérêt environnemental, mais aussi un impact économique positif pour les acteurs développant ce type d’outils.

Les mod­èles d’IA généra­tive, tels que le GPT‑4 d’OpenAI, sont en quelque sorte des out­ils à tout faire. Ils com­pren­nent un nom­bre con­séquent de paramètres – se comp­tant en mil­liards aujourd’hui – qui leur per­me­t­tent de répon­dre à tout type de tâche. Cette plu­ral­ité des usages, qui amène des prob­lèmes de com­plex­ité, rend ces mod­èles « à opti­miser », selon Enzo Tartaglione, chercheur et maître de con­férences à Télé­com Paris (IP Paris). Cette com­plex­ité implique égale­ment une con­som­ma­tion énergé­tique impres­sion­nante.

« Même pour une requête extrême­ment sim­ple, l’IA aura ten­dance à utilis­er toutes les ressources à sa dis­po­si­tion pour répon­dre, sans sous­traire celles qui ne seront pas utiles. Cela entraîne un gaspillage d’én­ergie, et c’est réelle­ment un axe que l’on se doit d’optimiser. » Cette con­som­ma­tion d’énergie, estimée à env­i­ron 2 % de la con­som­ma­tion mon­di­ale en 2024, pousse la recherche vers une autre approche : la frugalité.

De l’entraînement à l’utilisation

Ope­nAI a mis à dis­po­si­tion, au tra­vers de serveurs, un mod­èle de lan­gage extrême­ment deman­deur en ressources. Ce con­stat a amené les chercheurs à dis­tinguer la con­som­ma­tion de ressources de l’entraînement du mod­èle de celle de ses inférences, c’est-à-dire de l’utilisation de ce dernier. Bien que la con­som­ma­tion d’énergie de l’entraînement soit déjà con­séquente – env­i­ron 1 287 MWh pour GPT‑3, et entre 10 000 et 30 000 MWh estimés pour GPT‑4 –, son impact est ponctuel. Alors que l’impact de celle des inférences dépend du nom­bre d’utilisateurs, qui ne fait que grandir. Une étude de 20211 estime « entre 80 et 90 % la charge de tra­vail en machine learn­ing chez NVIDIA venant des inférences. Ama­zon Web Ser­vices estime que 90 % de la demande dans le cloud en machine learn­ing sont des inférences ».

Cer­tains chercheurs esti­ment qu’il faudrait trou­ver un équili­bre entre la con­som­ma­tion d’énergie d’un mod­èle, et la tâche qui lui est demandée. Si un mod­èle est util­isé pour décou­vrir un médica­ment, ou faire avancer une recherche – ce dont il est capa­ble –, l’impact car­bone sera moins dif­fi­cile à accepter. Seule­ment, aujourd’hui, ces mod­èles peu­vent être util­isés pour tout type de tâche, faisant ain­si, au tra­vers des dif­férentes requêtes qui leur sont demandées en même temps, des mil­lions d’inférences.

À Télé­com Paris, la chaire « Data sci­ence and arti­fi­cial intel­li­gence for dig­i­talised indus­try and ser­vices » se con­cen­tre sur plusieurs défis : com­ment con­cili­er l’essor de l’IA et ses con­traintes énergé­tiques, sans renon­cer à son poten­tiel ? « Nous explorons beau­coup les ques­tions de fru­gal­ité (N.D.L.R. : chercher à « faire plus avec moins » et dans un plus grand respect de l’environnement), mais aus­si de souten­abil­ité (N.D.L.R. : répon­dre aux besoins des généra­tions présentes sans com­pro­met­tre ceux des généra­tions futures), ajoute Enzo Tartaglione. Il y a une vraie ques­tion dans le choix des appli­ca­tions, car l’IA ne peut pas être que pointée du doigt comme mau­vaise élève. Avec des col­lègues, nous com­mençons un tra­vail sur la généra­tion de matéri­aux pour stock­er l’hydrogène. Il y a aus­si cela dans l’IA, un vecteur de solu­tion. » 

D’autant que les mod­èles que nous pou­vons tous utilis­er depuis nos porta­bles deman­dent d’échanger avec un serveur. « Il faut bien se ren­dre compte du coût de trans­port de l’information, qui plus est bidi­rec­tion­nelle, insiste le chercheur. Un intérêt fort peut ain­si se trou­ver dans la con­cep­tion de mod­èles util­is­ables locale­ment, lim­i­tant les besoins de com­mu­ni­ca­tion avec un serveur externe. Seule­ment, nous par­lons de mod­èles com­por­tant des mil­liards de paramètres dif­férents. Ce qui demande une mémoire allouée encore trop impor­tante pour que votre smart­phone puisse le faire sans inter­net. »

« Frugalité » rime avec « optimisée »

Il y a donc tout de même plusieurs dimen­sions en jeu dans la fru­gal­ité. Il ne faut pas seule­ment réduire le nom­bre de paramètres néces­saires aux cal­culs d’un mod­èle, que ce soit à l’entraînement, ou à l’inférence – comme l’a fait le mod­èle DeepSeek. Il faut aus­si agir sur les don­nées d’apprentissage et les don­nées for­mant la con­nais­sance du mod­èle. Pour ce faire, une solu­tion ressort notam­ment avec Mis­tral – un mod­èle de lan­gage français en open source. Il y a un intérêt à divis­er le mod­èle prin­ci­pal en une mul­ti­tude d’experts capa­bles de se réveiller selon la tâche demandée. C’est donc une des pistes pro­posées pour l’optimisation de ces mod­èles : les dis­tinguer en spé­cial­ités. « L’objectif est de pren­dre des mod­èles déjà pré-entraînés et de met­tre en place des straté­gies pour les adapter avec le moins de paramètres pos­si­ble à dif­férentes sous-tâch­es très pré­cis­es, explique Enzo Tartaglione. Ain­si, non seule­ment l’impact de l’entraînement n’est pas renou­velé, mais la presta­tion en ter­mes d’énergie et de per­for­mance est grande­ment améliorée. » 

Avec des mod­èles plus spé­cial­isés, la quan­tité de con­nais­sances néces­saires à la réal­i­sa­tion deman­dera aus­si moins de don­nées pour être acquise. Ce type de mod­èle pour­rait donc agir locale­ment, et avoir une com­mu­ni­ca­tion avec les serveurs bien plus épurée. Après tout, l’IA reste une inno­va­tion rel­a­tive­ment récente. Et, un peu comme le reste des inno­va­tions tech­nologiques, elle devrait logique­ment suiv­re le même chemin d’optimisation que les précé­dentes. Finale­ment, l’IA fru­gale représente bien plus un mou­ve­ment dans la recherche sur l’IA qu’un champ à part entière. D’ailleurs, l’informatique a tou­jours cher­ché à con­cevoir des sys­tèmes opti­misant les ressources et lim­i­tant les cal­culs inutiles – la fru­gal­ité est donc une con­ti­nu­ité naturelle de cette logique d’efficacité. Peut-être à l’image des ordi­na­teurs ou des télé­phones devenus portables ? 

Quoiqu’il en soit, l’intérêt de la fru­gal­ité, en plus d’être envi­ron­nemen­tal, est aus­si économique pour les dif­férents acteurs dévelop­pant ce type d’outils. Ce qui implique tout de même que l’effet rebond reste à crain­dre : une util­i­sa­tion plus mas­sive due à un développe­ment moins coû­teux réduirait forte­ment les béné­fices envi­ron­nemen­taux. Cepen­dant, cette approche ne sera sans doute pas la seule solu­tion au gouf­fre énergé­tique que représente l’IA ; répon­dre à la ques­tion de la souten­abil­ité sera, là aus­si, essentiel…

Pablo Andres
1Pat­ter­son, D., Gon­za­lez, J., Le, Q., Liang, C., Munguia, L. M., Rothchild, D., … & Hen­nessy, J. (2021). Car­bon emis­sions and large neur­al net­work train­ing. arX­iv preprint arXiv:2104.10350. https://​arx​iv​.org/​a​b​s​/​2​1​0​4​.​10350

Le monde expliqué par la science. Une fois par semaine, dans votre boîte mail.

Recevoir la newsletter