L’IA est-elle condamnée à être un gouffre énergétique ?
- Qu’il s’agisse de l’entraînement d’un modèle ou de ses inférences, l’intelligence artificielle générative (IAG) est gourmande en ressources énergétiques.
- La consommation énergétique de l’IAG due à ses inférences ne cesse d’augmenter : Amazon Web Services estime que 90 % de la demande en machine learning dans le cloud en provient.
- À Télécom Paris, une chaire spécialisée se demande comment concilier l’essor de l’IA avec les contraintes énergétiques, sans renoncer à son potentiel.
- L’une des pistes proposées consiste à optimiser les modèles en les divisant en une multitude d’ « experts », capables de s’activer en fonction de la tâche à accomplir.
- Améliorer la « frugalité » de l’IAG aurait un intérêt environnemental, mais aussi un impact économique positif pour les acteurs développant ce type d’outils.
Les modèles d’IA générative, tels que le GPT‑4 d’OpenAI, sont en quelque sorte des outils à tout faire. Ils comprennent un nombre conséquent de paramètres – se comptant en milliards aujourd’hui – qui leur permettent de répondre à tout type de tâche. Cette pluralité des usages, qui amène des problèmes de complexité, rend ces modèles « à optimiser », selon Enzo Tartaglione, chercheur et maître de conférences à Télécom Paris (IP Paris). Cette complexité implique également une consommation énergétique impressionnante.
« Même pour une requête extrêmement simple, l’IA aura tendance à utiliser toutes les ressources à sa disposition pour répondre, sans soustraire celles qui ne seront pas utiles. Cela entraîne un gaspillage d’énergie, et c’est réellement un axe que l’on se doit d’optimiser. » Cette consommation d’énergie, estimée à environ 2 % de la consommation mondiale en 2024, pousse la recherche vers une autre approche : la frugalité.
De l’entraînement à l’utilisation
OpenAI a mis à disposition, au travers de serveurs, un modèle de langage extrêmement demandeur en ressources. Ce constat a amené les chercheurs à distinguer la consommation de ressources de l’entraînement du modèle de celle de ses inférences, c’est-à-dire de l’utilisation de ce dernier. Bien que la consommation d’énergie de l’entraînement soit déjà conséquente – environ 1 287 MWh pour GPT‑3, et entre 10 000 et 30 000 MWh estimés pour GPT‑4 –, son impact est ponctuel. Alors que l’impact de celle des inférences dépend du nombre d’utilisateurs, qui ne fait que grandir. Une étude de 20211 estime « entre 80 et 90 % la charge de travail en machine learning chez NVIDIA venant des inférences. Amazon Web Services estime que 90 % de la demande dans le cloud en machine learning sont des inférences ».
Certains chercheurs estiment qu’il faudrait trouver un équilibre entre la consommation d’énergie d’un modèle, et la tâche qui lui est demandée. Si un modèle est utilisé pour découvrir un médicament, ou faire avancer une recherche – ce dont il est capable –, l’impact carbone sera moins difficile à accepter. Seulement, aujourd’hui, ces modèles peuvent être utilisés pour tout type de tâche, faisant ainsi, au travers des différentes requêtes qui leur sont demandées en même temps, des millions d’inférences.

À Télécom Paris, la chaire « Data science and artificial intelligence for digitalised industry and services » se concentre sur plusieurs défis : comment concilier l’essor de l’IA et ses contraintes énergétiques, sans renoncer à son potentiel ? « Nous explorons beaucoup les questions de frugalité (N.D.L.R. : chercher à « faire plus avec moins » et dans un plus grand respect de l’environnement), mais aussi de soutenabilité (N.D.L.R. : répondre aux besoins des générations présentes sans compromettre ceux des générations futures), ajoute Enzo Tartaglione. Il y a une vraie question dans le choix des applications, car l’IA ne peut pas être que pointée du doigt comme mauvaise élève. Avec des collègues, nous commençons un travail sur la génération de matériaux pour stocker l’hydrogène. Il y a aussi cela dans l’IA, un vecteur de solution. »
D’autant que les modèles que nous pouvons tous utiliser depuis nos portables demandent d’échanger avec un serveur. « Il faut bien se rendre compte du coût de transport de l’information, qui plus est bidirectionnelle, insiste le chercheur. Un intérêt fort peut ainsi se trouver dans la conception de modèles utilisables localement, limitant les besoins de communication avec un serveur externe. Seulement, nous parlons de modèles comportant des milliards de paramètres différents. Ce qui demande une mémoire allouée encore trop importante pour que votre smartphone puisse le faire sans internet. »
« Frugalité » rime avec « optimisée »
Il y a donc tout de même plusieurs dimensions en jeu dans la frugalité. Il ne faut pas seulement réduire le nombre de paramètres nécessaires aux calculs d’un modèle, que ce soit à l’entraînement, ou à l’inférence – comme l’a fait le modèle DeepSeek. Il faut aussi agir sur les données d’apprentissage et les données formant la connaissance du modèle. Pour ce faire, une solution ressort notamment avec Mistral – un modèle de langage français en open source. Il y a un intérêt à diviser le modèle principal en une multitude d’experts capables de se réveiller selon la tâche demandée. C’est donc une des pistes proposées pour l’optimisation de ces modèles : les distinguer en spécialités. « L’objectif est de prendre des modèles déjà pré-entraînés et de mettre en place des stratégies pour les adapter avec le moins de paramètres possible à différentes sous-tâches très précises, explique Enzo Tartaglione. Ainsi, non seulement l’impact de l’entraînement n’est pas renouvelé, mais la prestation en termes d’énergie et de performance est grandement améliorée. »
Avec des modèles plus spécialisés, la quantité de connaissances nécessaires à la réalisation demandera aussi moins de données pour être acquise. Ce type de modèle pourrait donc agir localement, et avoir une communication avec les serveurs bien plus épurée. Après tout, l’IA reste une innovation relativement récente. Et, un peu comme le reste des innovations technologiques, elle devrait logiquement suivre le même chemin d’optimisation que les précédentes. Finalement, l’IA frugale représente bien plus un mouvement dans la recherche sur l’IA qu’un champ à part entière. D’ailleurs, l’informatique a toujours cherché à concevoir des systèmes optimisant les ressources et limitant les calculs inutiles – la frugalité est donc une continuité naturelle de cette logique d’efficacité. Peut-être à l’image des ordinateurs ou des téléphones devenus portables ?
Quoiqu’il en soit, l’intérêt de la frugalité, en plus d’être environnemental, est aussi économique pour les différents acteurs développant ce type d’outils. Ce qui implique tout de même que l’effet rebond reste à craindre : une utilisation plus massive due à un développement moins coûteux réduirait fortement les bénéfices environnementaux. Cependant, cette approche ne sera sans doute pas la seule solution au gouffre énergétique que représente l’IA ; répondre à la question de la soutenabilité sera, là aussi, essentiel…