Accueil / Chroniques / IA générative : quelles sont les prochaines étapes ?
Eye of futuristic and Innovative Imagery AI and Automation use of artificial intelligence and automation in business processes, illustrating efficiency and productivity enhancements
π Science et technologies π Numérique

IA générative : quelles sont les prochaines étapes ?

Andrew Rogoyski
Andrew Rogoyski
directeur de l'innovation pour le Surrey Institute for People-Centred AI
En bref
  • L'IA progresse à une vitesse fulgurante, et son rythme de développement ne risque pas de ralentir.
  • Certains développements, comme l'IA multimodale, l’assistance virtuelle ainsi que la recherche automatisée par l'IA sont à portée de main.
  • Toutefois, le développement de l’IA n’est à ce jour par rentable et est dominé par quelques grandes organisations commerciales.
  • Des avancées plus importantes, telles que celles des robots et des mentors (tuteurs, conseillers d’orientation…) alimentés par l'IA, semblent encore lointaines, mais sont susceptibles de se produire.
  • Face à ces évolutions, les organismes de réglementation doivent arbitrer les usages de l’IA.

L’IA est une avancée qui ne date pas d’hier. Mais au cours de ces deux dernières années, alors que le grand public ne faisait que la découvrir, elle a progressé à une vitesse fulgurante. Andrew Rogoyski nous expose son point de vue sur ce qui nous attend. Quelles sont les nouvelles fonctionnalités puissantes que l’on peut attendre de l’IA ?

Cet article a été publié dans notre maga­zine Le 3,14 sur l’IA.
Télé­char­gez-le ici.

Il convient de pré­ci­ser que lorsque nous uti­li­sons le terme « IA », nous nous concen­trons actuel­le­ment sur l”« IA géné­ra­tive » ou « GenAI » que des pla­te­formes telles que ChatGPT d’O­pe­nAI ont mis au point au cours des deux der­nières années. D’autres pro­grès impor­tants, réa­li­sés par des acteurs du monde entier, devraient bien­tôt voir le jour. D’ailleurs, il existe déjà une feuille de route.

L’un d’entre eux concerne l’IA qui devient de plus en plus mul­ti­mo­dale. Cela signi­fie que les grands modèles de lan­gage (LLM) appren­dront et com­pren­dront le texte, la vidéo et le son, ain­si que la manière dont ils sont liés les uns aux autres. Cer­tains modèles sont déjà en train de fran­chir cette bar­rière et d’ar­ri­ver sur les mar­chés. Les IA mono­mo­dales comme Copi­lot peuvent géné­rer des images à par­tir de textes et vice ver­sa. Sora peut géné­rer des vidéos à par­tir de textes. Run­way et Pika Labs pro­posent éga­le­ment de la géné­ra­tion d’i­mages à par­tir de vidéos. Les nou­veaux grands modèles mul­ti­mo­daux (LMM) d’O­pe­nAI, Meta, Google et d’autres, peuvent géné­rer de la vidéo à par­tir d’une image, d’un texte et d’autres modes de don­nées. Par exemple, cer­tains modèles GenAI répondent à des ques­tions tex­tuelles sur le conte­nu des vidéos. De nom­breux sec­teurs sont concer­nés et les stu­dios d’Hol­ly­wood éva­luent rapi­de­ment ce que cela pour­rait signi­fier pour l’in­dus­trie ciné­ma­to­gra­phique. L’un des incon­vé­nients de cette tech­no­lo­gie puis­sante est qu’il est pos­sible de créer des « deep­fakes » (tru­cages hyper­réa­listes) assez com­plexes avec des bud­gets modestes. 

Un autre grand pro­grès atten­du est que l’IA devienne un outil invi­sible. Au lieu de devoir se connec­ter à une pla­te­forme dédiée sur un ordi­na­teur ou un télé­phone, nous pour­rons conver­ser avec nos voi­tures, nos télé­phones et nos appa­reils élec­tro­mé­na­gers et obte­nir des réponses natu­relles. Plu­sieurs entre­prises tra­vaillent sur ce sujet : Apple avec Apple Intel­li­gence, Google avec Google IA, Ama­zon avec Alexa, etc. 

L’é­tape sui­vante consiste à faire en sorte que l’IA agisse comme une sorte d’agent en votre nom, en lui per­met­tant de réser­ver des voyages, des séjours à l’hô­tel, etc. Pour l’ins­tant, la GenAI n’est pas très douée pour la pla­ni­fi­ca­tion. C’est ce sur quoi Ope­nAI ain­si que d’autres tra­vaillent, afin d’obtenir une GenAI capable de décom­po­ser un pro­blème en étapes et de prendre des mesures en fonc­tion de ces étapes. La ques­tion est de savoir quelle auto­ri­té vous don­ne­rez à un agent pour qu’il agisse en votre nom. Il est pro­bable que ces agents inter­agi­ront avec d’autres agents, ce qui don­ne­ra lieu à des dis­cus­sions et à des négo­cia­tions sans inter­ven­tion humaine.

Une autre évo­lu­tion impor­tante sera l’a­mé­lio­ra­tion de la recherche d’in­for­ma­tions par l’IA. Ce sujet peut sem­bler assez ennuyeux, mais il est vrai­ment pas­sion­nant en termes de pro­duc­ti­vi­té. Les entre­prises col­lectent des mil­liers de docu­ments conte­nant des inter­ac­tions avec leurs clients, des offres, des poli­tiques, des pro­cé­dures et d’autres infor­ma­tions utiles. Cepen­dant, la récu­pé­ra­tion de ces infor­ma­tions est géné­ra­le­ment médiocre. La GenAI pour­rait être la solu­tion au pro­blème de la « ges­tion des connais­sances » des entre­prises. Ne serait-il pas mer­veilleux de pou­voir deman­der à son ordi­na­teur por­table : « Quel était ce grand appel d’offre que nous avons lan­cé il y a trois ans en par­te­na­riat avec cette banque ? » et qu’il déduise les bonnes réponses et vous donne un résu­mé plu­tôt qu’une série de docu­ments que vous devez lire ?

Bien sûr, avant de pou­voir faire cela, nous devons nous atta­quer à la fameuse « hal­lu­ci­na­tion » de l’IA, qui sont les fausses infor­ma­tions géné­rées par l’IA. Nous avons déve­lop­pé une tech­no­lo­gie qui per­met « d’hal­lu­ci­ner » des images, des sons, des poèmes, etc. Mais nous sommes moins enthou­siastes à l’i­dée qu’elle puisse « hal­lu­ci­ner » les comptes d’une entre­prise ou un dos­sier médi­cal. L’as­tuce consis­te­ra main­te­nant à rendre cette inter­face conver­sa­tion­nelle vrai­ment pra­tique et à la relier à des faits concrets. L’IA géné­ra­tive peut engen­drer des absur­di­tés, ce qui peut être un gros pro­blème. Récem­ment, Air Cana­da a fait l’ob­jet d’une pro­cé­dure devant le tri­bu­nal des petites créances1 de la part d’un pas­sa­ger qui avait ten­té de deman­der rétro­ac­ti­ve­ment le rem­bour­se­ment de son billet après avoir véri­fié la poli­tique de la com­pa­gnie en matière de deuil sur sa chat­bot ali­men­tée par l’IA. L’IA a cru que les pas­sa­gers pou­vaient deman­der un rem­bour­se­ment dans les 90 jours sui­vant le voyage, ce qui ne figure pas dans la poli­tique de la com­pa­gnie. Le tri­bu­nal a don­né rai­son au passager. 

Une partie de l’avancée de l’IA consistera à en limiter le coût, n’est-ce pas ?

Oui, le coût de d’exploitation de ces modèles aujourd’­hui, en termes d’éner­gie, de refroi­dis­se­ment et de puis­sance de cal­cul, les rend non viables, tant sur le plan com­mer­cial que dans le contexte de la crise cli­ma­tique. Les entre­prises sont sus­cep­tibles de pas­ser des uni­tés de trai­te­ment gra­phique (GPU) exis­tantes à du maté­riel conçu pour les appli­ca­tions d’IA. 

Apple dis­pose d’une « uni­té de trai­te­ment neu­ro­nal », Google a une « uni­té de trai­te­ment ten­so­riel », Micro­soft, IBM, Ama­zon, Sam­sung et d’autres déve­loppent tous du maté­riel spé­cia­li­sé capable d’améliorer les per­for­mances cent fois, mille fois plus effi­ca­ce­ment que les GPU et les CPU. Ces puces sont mas­si­ve­ment opti­mi­sées pour les opé­ra­tions matri­cielles au cœur des algo­rithmes d’ap­pren­tis­sage automatique.

De nou­velles archi­tec­tures de puces sont éga­le­ment pro­po­sées pour faire fonc­tion­ner ces modèles avec une très faible consom­ma­tion d’éner­gie. C’est le cas de la puce North Pole AI d’IBM2, par  exemple, qui pro­met de réduire la puis­sance des appli­ca­tions typiques d’un fac­teur 253. Goo­gle­tra­vaille éga­le­ment sur sa Ten­sor Pro­ces­sing Unit pour accé­lé­rer le trai­te­ment de l’IA et la Lan­guage Pro­ces­sing Unit de Groq est éga­le­ment prometteuse.

Il existe éga­le­ment des archi­tec­tures plus éso­té­riques, telles que les puces neu­ro­mor­phiques. Celles-ci sont conçues pour prendre en charge les réseaux de neu­rones à pointes, des modèles infor­ma­tiques qui imitent le fonc­tion­ne­ment du cer­veau humain. Pour l’ins­tant, ces archi­tec­tures sont sur­tout uti­li­sées dans le domaine uni­ver­si­taire, mais elles com­mencent à s’é­tendre à d’autres champs. 

Qu’en est-il du fait que l’IA est fortement dominée par quelques entités commerciales à l’heure actuelle ?

Il y a actuel­le­ment un grand débat sur l’ou­ver­ture des LLM à l’o­pen source. En rai­son de l’am­pleur des opé­ra­tions néces­saires au déve­lop­pe­ment des LLM et des LMM, les orga­ni­sa­tions com­mer­ciales ont été à l’a­vant-garde du déve­lop­pe­ment. Envi­ron 80 à 90 % d’entre eux sont déve­lop­pés par des orga­ni­sa­tions com­mer­ciales. Cela signi­fie que la tech­no­lo­gie est res­tée prin­ci­pa­le­ment entre les mains de ses pro­prié­taires, à quelques excep­tions notables près, comme le LLa­MA de Meta et le Large et Codes­tral de Mis­tral, qui ont été mis en open source très tôt. Il existe éga­le­ment des LLM/LMM com­mu­nau­taires à code source ouvert tels que Pla­ty­pus, Bloom et Fal­con.

D’une part, un plus grand nombre de per­sonnes expé­ri­mentent et s’amusent avec cette tech­no­lo­gie ce qui pour­rait déclen­cher de nou­velles avan­cées, expo­ser des vul­né­ra­bi­li­tés, etc. D’autre part, il y a des gens qui uti­li­se­ront cette tech­no­lo­gie à mau­vais escient. La plu­part des modèles intègrent actuel­le­ment des dis­po­si­tifs de sécu­ri­té pour empê­cher les gens de faire ce qu’ils veulent, mais il est rela­ti­ve­ment facile de les contour­ner. Et, cer­tains modèles à code source ouvert sont dis­po­nibles à l’é­tat « brut », sans garde-fous. Nous pou­vons nous attendre à ce que la GenAI à code source ouvert conti­nue à se déve­lop­per. Cela va de pair avec la volon­té de déve­lop­per des modèles plus petits et plus durables, dont le fonc­tion­ne­ment ne néces­site pas des cen­taines de mil­lions de dollars. 

À quels problèmes peut-on s’attendre en termes d’utilisation abusive de ces nouvelles technologies ?

La cyber­sé­cu­ri­té res­te­ra un pro­blème majeur. Les orga­ni­sa­tions cri­mi­nelles apprennent déjà rapi­de­ment à exploi­ter cette tech­no­lo­gie. Elles ont déjà com­men­cé à uti­li­ser l’IA géné­ra­tive pour ratio­na­li­ser la sur­veillance en ligne, exploi­ter les don­nées his­to­riques à la recherche de vul­né­ra­bi­li­tés ou encore, auto­ma­ti­ser des attaques à l’aide de faux textes. Les escrocs uti­lisent éga­le­ment des « deep­fakes » pour sou­ti­rer de l’argent aux entre­prises. La police de Hong Kong a récem­ment pro­cé­dé à six arres­ta­tions4 dans le cadre d’une escro­que­rie com­plexe qui a dépouillée la socié­té d’ingénierie bri­tan­nique Arup5 de 25 mil­lions de dol­lars. L’un des employés de la socié­té a été entraî­né dans une vidéo­con­fé­rence avec ce qu’il pen­sait être son direc­teur finan­cier. Il s’est avé­ré qu’il s’a­gis­sait d’une vidéo « deep­fake ». Ces « deep­fakes » ciblent éga­le­ment les inten­tions des élec­teurs avec des infor­ma­tions erro­nées. Il s’a­git d’une ten­dance très dan­ge­reuse et d’une menace réelle pour cette année, 2024 étant l’an­née où se tien­dront le plus grand nombre d’é­lec­tions jamais orga­ni­sées par l’Homme dans son Histoire. 

Alors que les cyber-escrocs conti­nue­ront à s’a­mé­lio­rer, les défen­seurs de l’autre côté apprennent éga­le­ment, uti­li­sant l’IA géné­ra­tive et d’autres formes d’IA pour trou­ver les atta­quants. Dans le monde de la cyber­sé­cu­ri­té, il y a un cycle constant d’at­taque et de défense. L’u­ti­li­sa­tion de l’IA dans un contexte mili­taire fait éga­le­ment l’ob­jet d’un grand débat. L’IA est déjà uti­li­sée pour ana­ly­ser l’i­ma­ge­rie satel­lite ou assu­rer la navi­ga­tion des drones, mais on ne sait pas encore si elle peut être uti­li­sée pour ôter la vie à des êtres humains. À l’heure actuelle, il est moins coû­teux de ne pas équi­per les drones d’IA, même si c’est tech­ni­que­ment pos­sible. À mon avis, il s’a­git là d’une limite très impor­tante à ne pas fran­chir. Nous ne vou­lons pas entrer dans un monde où nous devons nous battre à la vitesse d’une machine et où notre adver­saire est une IA – il n’y aurait alors qu’un pas vers les mondes dys­to­piques des films Ter­mi­na­tor de James Came­ron ou de la série Matrix des sœurs Wachowski.

Nous constatons une certaine évolution de la part des organismes de réglementation.

Une régle­men­ta­tion com­mence à voir le jour. La loi de l’U­nion euro­péenne sur l’IA est entrée en vigueur6 en août 2023 et les détails ont été fina­li­sés en avril de cette année. Tout le monde sur­veille­ra l’im­pact de la légis­la­tion euro­péenne. Un décret pré­si­den­tiel amé­ri­cain publié7 en octobre 2023 a intro­duit une longue liste de contrôles, y com­pris des rap­ports sta­tu­taires au-delà d’un cer­tain niveau de puis­sance de cal­cul et de mise en réseau. On peut s’at­tendre à ce que les États-Unis, le Royaume-Uni et d’autres pays adoptent bien­tôt d’autres lois. 

La science-fic­tion a la fâcheuse habi­tude de deve­nir une réa­li­té scientifique.

Tou­te­fois, si l’on ne demande pas des comptes à ceux qui déve­loppent l’IA, cette régle­men­ta­tion n’au­ra qu’une por­tée limi­tée. Pour l’ins­tant, c’est le règne de la liber­té. Si la tech­no­lo­gie met des mil­lions de per­sonnes au chô­mage ou pro­voque une épi­dé­mie de troubles men­taux, les entre­prises peuvent haus­ser les épaules et dire qu’elles ne contrôlent pas la manière dont les gens uti­lisent cette tech­no­lo­gie. D’un autre côté, si les grandes entre­prises sont les seules orga­ni­sa­tions dési­reuses ou capables d’in­ves­tir les dizaines de mil­liards néces­saires au déve­lop­pe­ment de ces sys­tèmes d’IA, per­sonne ne veut blo­quer le pro­ces­sus et ris­quer de se lais­ser dis­tan­cer par d’autres pays.

Nous avons besoin d’une légis­la­tion et d’une régle­men­ta­tion qui rendent les orga­ni­sa­tions et les indi­vi­dus res­pon­sables de l’im­pact de leurs tech­no­lo­gies. Cela les obli­ge­rait à réflé­chir soi­gneu­se­ment à la manière dont leur tech­no­lo­gie sera uti­li­sée et leur impo­se­rait d’ex­plo­rer et de tes­ter cor­rec­te­ment l’im­pact de leur tech­no­lo­gie. Vous pou­vez consta­ter qu’il s’a­git d’un sujet de ten­sion pour cer­taines entre­prises de GenAI. Par exemple, Ope­nAI a per­du plu­sieurs de ses diri­geants8, cha­cun d’entre eux fai­sant allu­sion au manque de super­vi­sion dans le déve­lop­pe­ment de GenAI. 

Y a‑t-il autre chose que nous devrions surveiller ?

Il y a des avan­cées qui se pro­filent à l’ho­ri­zon, et on peut les voir arri­ver. Et elles seront très impor­tantes. Je pense que la conver­gence de l’in­for­ma­tique quan­tique et de l’IA sera inté­res­sante. Cer­taines entre­prises, comme IBM, pré­sentent désor­mais leurs feuilles de route en matière d’in­for­ma­tique quan­tique. IBM pré­voit 200 qubits et 100 mil­lions de portes de cal­cul d’ici 20299. Il s’a­git d’une tech­no­lo­gie très puis­sante qui pour­rait per­mettre à l’IA d’ap­prendre en temps réel, ce qui est vrai­ment passionnant.

Au cours des 12 der­niers mois envi­ron, des per­sonnes ont appli­qué l’ap­proche des grands modèles de lan­gage à la robo­tique, ce que l’on appelle les modèles Vision Lan­guage Action (VLA). De la même manière que nous avons construit des modèles de base pour le texte et les images, nous pour­rions être en mesure de les construire pour la per­cep­tion, l’ac­tion et le mou­ve­ment robo­tique. L’ob­jec­tif est de par­ve­nir à ce que, par exemple, vous puis­siez dire à un robot de ramas­ser une banane et qu’il ait suf­fi­sam­ment de connais­sances géné­rales pour non seule­ment repé­rer la banane avec son cap­teur, mais aus­si savoir ce qu’il doit en faire, sans avoir besoin d’une entrée algo­rith­mique spé­ci­fique. Il s’a­git d’une avan­cée inté­res­sante dans le domaine de la robo­tique, car elle per­met à l’IA d’ap­prendre à par­tir de l’ex­pé­rience phy­sique et du monde réel. 

Les men­tors de l’IA pour­raient consti­tuer une autre avan­cée majeure. Les IA sont déjà uti­li­sées pour géné­rer du maté­riel d’ap­pren­tis­sage, mais on peut ima­gi­ner un monde où une IA scanne votre CV et est capable de vous sug­gé­rer des for­ma­tions, des lec­tures, etc. Les IA pour­raient éga­le­ment jouer le rôle de tuteurs, en vous gui­dant dans vos études, en vous sug­gé­rant des méthodes d’ap­pren­tis­sage, en vous fai­sant pas­ser des exa­mens et des éva­lua­tions, et en sui­vant votre évo­lu­tion. Des écoles pilotent déjà l’u­ti­li­sa­tion de GenAI en tant que tuteurs. Par exemple, le David Game Col­lege de Londres10 teste un GCSE accé­lé­ré dans lequel les étu­diants ne reçoivent que des cours d’IA. Vous entrez dans la boucle édu­ca­tive et la modi­fiez entièrement.

La ques­tion qui se pose est alors la sui­vante : pour­quoi iriez-vous à l’u­ni­ver­si­té ? Pour­quoi iriez-vous à l’é­cole, si ce n’est pour ses avan­tages sociaux ? L’IA pour­rait chan­ger fon­da­men­ta­le­ment notre façon d’ap­prendre et d’en­sei­gner. Cer­tains pour­raient s’in­quié­ter du fait que nous com­men­cions à construire de nou­veaux sys­tèmes édu­ca­tifs qui dépendent des entre­prises tech­no­lo­giques amé­ri­caines, plu­tôt que d’êtres humains qua­li­fiés dans le pays.

Quel est le calendrier prévu pour ces avancées ?

Je pense que ce que nous avons appris ces deux der­nières années, c’est que les choses peuvent arri­ver très vite. Elles ne sont jamais aus­si far­fe­lues que nous l’i­ma­gi­nons – la science-fic­tion a la fâcheuse habi­tude de deve­nir une réa­li­té scien­ti­fique. Je dirais même qu’une grande par­tie de la science-fic­tion est très proche de la réalité. 

Nous devons main­te­nant com­men­cer à réflé­chir aux consé­quences de tout cela. Quel est le rôle de l’hu­ma­ni­té dans cet ave­nir ? À quoi res­semblent les éco­no­mies si les humains sont exclus de l’é­qua­tion ? À quoi res­semblent la véri­té et la démo­cra­tie lorsque tout peut être tru­qué ? À quoi res­sem­ble­ra l’é­du­ca­tion, fon­de­ment de notre qua­li­té de vie moderne, dans l’a­ve­nir ? Ce sont de très grandes ques­tions fon­da­men­tales aux­quelles je pense que per­sonne n’a la réponse à l’heure actuelle. 

Propos recueillis par Marianne Guenot

1https://​www​.cbs​news​.com/​n​e​w​s​/​a​i​r​c​a​n​a​d​a​-​c​h​a​t​b​o​t​-​d​i​s​c​o​u​n​t​-​c​u​s​t​omer/
2https://​research​.ibm​.com/​b​l​o​g​/​n​o​r​t​h​p​o​l​e​-​i​b​m​-​a​i​-chip
3https://​spec​trum​.ieee​.org/​n​e​u​r​o​m​o​r​p​h​i​c​-​c​o​m​p​u​t​i​n​g​-​i​b​m​-​n​o​r​t​hpole
4https://​edi​tion​.cnn​.com/​2​0​2​4​/​0​2​/​0​4​/​a​s​i​a​/​d​e​e​p​f​a​k​e​-​c​f​o​-​s​c​a​m​-​h​o​n​g​-​k​o​n​g​-​i​n​t​l​-​h​n​k​/​i​n​d​e​x​.html
5https://​www​.ft​.com/​c​o​n​t​e​n​t​/​b​9​7​7​e​8​d​4​-​6​6​4​c​-​4​a​e​4​-​8​a​8​e​-​e​b​9​3​b​d​f​785ea
6https://commission.europa.eu/news/ai-act-enters-force-2024–08-01_en
7https://​www​.ft​.com/​c​o​n​t​e​n​t​/​b​9​7​7​e​8​d​4​-​6​6​4​c​-​4​a​e​4​-​8​a​8​e​-​e​b​9​3​b​d​f​785ea
8https://www.ft.com/content/638f67f7-5375–47fc-b3a7-af7c9e05b9e0
9https://​www​.ibm​.com/​r​o​a​d​m​a​p​s​/​q​u​a​n​t​u​m.pdf
10https://​www​.bbc​.co​.uk/​s​o​u​n​d​s​/​p​l​a​y​/​m​0​0​21x2v

Soutenez une information fiable basée sur la méthode scientifique.

Faire un don à Polytechnique Insights