π Science et technologies π Numérique

IA générative : quelles sont les prochaines étapes ?

Andrew Rogoyski

directeur de l'innovation pour le Surrey Institute for People-Centred AI

En bref

L'IA progresse à une vitesse fulgurante, et son rythme de développement ne risque pas de ralentir.
Certains développements, comme l'IA multimodale, l’assistance virtuelle ainsi que la recherche automatisée par l'IA sont à portée de main.
Toutefois, le développement de l’IA n’est à ce jour par rentable et est dominé par quelques grandes organisations commerciales.
Des avancées plus importantes, telles que celles des robots et des mentors (tuteurs, conseillers d’orientation…) alimentés par l'IA, semblent encore lointaines, mais sont susceptibles de se produire.
Face à ces évolutions, les organismes de réglementation doivent arbitrer les usages de l’IA.

L’IA est une avancée qui ne date pas d’hier. Mais au cours de ces deux dernières années, alors que le grand public ne faisait que la découvrir, elle a progressé à une vitesse fulgurante. Andrew Rogoyski nous expose son point de vue sur ce qui nous attend. Quelles sont les nouvelles fonctionnalités puissantes que l’on peut attendre de l’IA ?

Cet article a été publié dans notre magazine Le 3,14 sur l’IA.
Téléchargez-le ici.

Il convient de préciser que lorsque nous utilisons le terme « IA », nous nous concentrons actuellement sur l”« IA générative » ou « GenAI » que des plateformes telles que ChatGPT d’OpenAI ont mis au point au cours des deux dernières années. D’autres progrès importants, réalisés par des acteurs du monde entier, devraient bientôt voir le jour. D’ailleurs, il existe déjà une feuille de route.

L’un d’entre eux concerne l’IA qui devient de plus en plus multimodale. Cela signifie que les grands modèles de langage (LLM) apprendront et comprendront le texte, la vidéo et le son, ainsi que la manière dont ils sont liés les uns aux autres. Certains modèles sont déjà en train de franchir cette barrière et d’arriver sur les marchés. Les IA monomodales comme Copilot peuvent générer des images à partir de textes et vice versa. Sora peut générer des vidéos à partir de textes. Runway et Pika Labs proposent également de la génération d’images à partir de vidéos. Les nouveaux grands modèles multimodaux (LMM) d’OpenAI, Meta, Google et d’autres, peuvent générer de la vidéo à partir d’une image, d’un texte et d’autres modes de données. Par exemple, certains modèles GenAI répondent à des questions textuelles sur le contenu des vidéos. De nombreux secteurs sont concernés et les studios d’Hollywood évaluent rapidement ce que cela pourrait signifier pour l’industrie cinématographique. L’un des inconvénients de cette technologie puissante est qu’il est possible de créer des « deepfakes » (trucages hyperréalistes) assez complexes avec des budgets modestes.

Un autre grand progrès attendu est que l’IA devienne un outil invisible. Au lieu de devoir se connecter à une plateforme dédiée sur un ordinateur ou un téléphone, nous pourrons converser avec nos voitures, nos téléphones et nos appareils électroménagers et obtenir des réponses naturelles. Plusieurs entreprises travaillent sur ce sujet : Apple avec Apple Intelligence, Google avec Google IA, Amazon avec Alexa, etc.

L’étape suivante consiste à faire en sorte que l’IA agisse comme une sorte d’agent en votre nom, en lui permettant de réserver des voyages, des séjours à l’hôtel, etc. Pour l’instant, la GenAI n’est pas très douée pour la planification. C’est ce sur quoi OpenAI ainsi que d’autres travaillent, afin d’obtenir une GenAI capable de décomposer un problème en étapes et de prendre des mesures en fonction de ces étapes. La question est de savoir quelle autorité vous donnerez à un agent pour qu’il agisse en votre nom. Il est probable que ces agents interagiront avec d’autres agents, ce qui donnera lieu à des discussions et à des négociations sans intervention humaine.

Une autre évolution importante sera l’amélioration de la recherche d’informations par l’IA. Ce sujet peut sembler assez ennuyeux, mais il est vraiment passionnant en termes de productivité. Les entreprises collectent des milliers de documents contenant des interactions avec leurs clients, des offres, des politiques, des procédures et d’autres informations utiles. Cependant, la récupération de ces informations est généralement médiocre. La GenAI pourrait être la solution au problème de la « gestion des connaissances » des entreprises. Ne serait-il pas merveilleux de pouvoir demander à son ordinateur portable : « Quel était ce grand appel d’offre que nous avons lancé il y a trois ans en partenariat avec cette banque ? » et qu’il déduise les bonnes réponses et vous donne un résumé plutôt qu’une série de documents que vous devez lire ?

Bien sûr, avant de pouvoir faire cela, nous devons nous attaquer à la fameuse « hallucination » de l’IA, qui sont les fausses informations générées par l’IA. Nous avons développé une technologie qui permet « d’halluciner » des images, des sons, des poèmes, etc. Mais nous sommes moins enthousiastes à l’idée qu’elle puisse « halluciner » les comptes d’une entreprise ou un dossier médical. L’astuce consistera maintenant à rendre cette interface conversationnelle vraiment pratique et à la relier à des faits concrets. L’IA générative peut engendrer des absurdités, ce qui peut être un gros problème. Récemment, Air Canada a fait l’objet d’une procédure devant le tribunal des petites créances¹ de la part d’un passager qui avait tenté de demander rétroactivement le remboursement de son billet après avoir vérifié la politique de la compagnie en matière de deuil sur sa chatbot alimentée par l’IA. L’IA a cru que les passagers pouvaient demander un remboursement dans les 90 jours suivant le voyage, ce qui ne figure pas dans la politique de la compagnie. Le tribunal a donné raison au passager.

Une partie de l’avancée de l’IA consistera à en limiter le coût, n’est-ce pas ?

Oui, le coût de d’exploitation de ces modèles aujourd’hui, en termes d’énergie, de refroidissement et de puissance de calcul, les rend non viables, tant sur le plan commercial que dans le contexte de la crise climatique. Les entreprises sont susceptibles de passer des unités de traitement graphique (GPU) existantes à du matériel conçu pour les applications d’IA.

Apple dispose d’une « unité de traitement neuronal », Google a une « unité de traitement tensoriel », Microsoft, IBM, Amazon, Samsung et d’autres développent tous du matériel spécialisé capable d’améliorer les performances cent fois, mille fois plus efficacement que les GPU et les CPU. Ces puces sont massivement optimisées pour les opérations matricielles au cœur des algorithmes d’apprentissage automatique.

De nouvelles architectures de puces sont également proposées pour faire fonctionner ces modèles avec une très faible consommation d’énergie. C’est le cas de la puce North Pole AI d’IBM², par exemple, qui promet de réduire la puissance des applications typiques d’un facteur 25³. Googletravaille également sur sa Tensor Processing Unit pour accélérer le traitement de l’IA et la Language Processing Unit de Groq est également prometteuse.

Il existe également des architectures plus ésotériques, telles que les puces neuromorphiques. Celles-ci sont conçues pour prendre en charge les réseaux de neurones à pointes, des modèles informatiques qui imitent le fonctionnement du cerveau humain. Pour l’instant, ces architectures sont surtout utilisées dans le domaine universitaire, mais elles commencent à s’étendre à d’autres champs.

Qu’en est-il du fait que l’IA est fortement dominée par quelques entités commerciales à l’heure actuelle ?

Il y a actuellement un grand débat sur l’ouverture des LLM à l’open source. En raison de l’ampleur des opérations nécessaires au développement des LLM et des LMM, les organisations commerciales ont été à l’avant-garde du développement. Environ 80 à 90 % d’entre eux sont développés par des organisations commerciales. Cela signifie que la technologie est restée principalement entre les mains de ses propriétaires, à quelques exceptions notables près, comme le LLaMA de Meta et le Large et Codestral de Mistral, qui ont été mis en open source très tôt. Il existe également des LLM/LMM communautaires à code source ouvert tels que Platypus, Bloom et Falcon.

D’une part, un plus grand nombre de personnes expérimentent et s’amusent avec cette technologie ce qui pourrait déclencher de nouvelles avancées, exposer des vulnérabilités, etc. D’autre part, il y a des gens qui utiliseront cette technologie à mauvais escient. La plupart des modèles intègrent actuellement des dispositifs de sécurité pour empêcher les gens de faire ce qu’ils veulent, mais il est relativement facile de les contourner. Et, certains modèles à code source ouvert sont disponibles à l’état « brut », sans garde-fous. Nous pouvons nous attendre à ce que la GenAI à code source ouvert continue à se développer. Cela va de pair avec la volonté de développer des modèles plus petits et plus durables, dont le fonctionnement ne nécessite pas des centaines de millions de dollars.

À quels problèmes peut-on s’attendre en termes d’utilisation abusive de ces nouvelles technologies ?

La cybersécurité restera un problème majeur. Les organisations criminelles apprennent déjà rapidement à exploiter cette technologie. Elles ont déjà commencé à utiliser l’IA générative pour rationaliser la surveillance en ligne, exploiter les données historiques à la recherche de vulnérabilités ou encore, automatiser des attaques à l’aide de faux textes. Les escrocs utilisent également des « deepfakes » pour soutirer de l’argent aux entreprises. La police de Hong Kong a récemment procédé à six arrestations⁴ dans le cadre d’une escroquerie complexe qui a dépouillée la société d’ingénierie britannique Arup⁵ de 25 millions de dollars. L’un des employés de la société a été entraîné dans une vidéoconférence avec ce qu’il pensait être son directeur financier. Il s’est avéré qu’il s’agissait d’une vidéo « deepfake ». Ces « deepfakes » ciblent également les intentions des électeurs avec des informations erronées. Il s’agit d’une tendance très dangereuse et d’une menace réelle pour cette année, 2024 étant l’année où se tiendront le plus grand nombre d’élections jamais organisées par l’Homme dans son Histoire.

Alors que les cyber-escrocs continueront à s’améliorer, les défenseurs de l’autre côté apprennent également, utilisant l’IA générative et d’autres formes d’IA pour trouver les attaquants. Dans le monde de la cybersécurité, il y a un cycle constant d’attaque et de défense. L’utilisation de l’IA dans un contexte militaire fait également l’objet d’un grand débat. L’IA est déjà utilisée pour analyser l’imagerie satellite ou assurer la navigation des drones, mais on ne sait pas encore si elle peut être utilisée pour ôter la vie à des êtres humains. À l’heure actuelle, il est moins coûteux de ne pas équiper les drones d’IA, même si c’est techniquement possible. À mon avis, il s’agit là d’une limite très importante à ne pas franchir. Nous ne voulons pas entrer dans un monde où nous devons nous battre à la vitesse d’une machine et où notre adversaire est une IA – il n’y aurait alors qu’un pas vers les mondes dystopiques des films Terminator de James Cameron ou de la série Matrix des sœurs Wachowski.

Nous constatons une certaine évolution de la part des organismes de réglementation.

Une réglementation commence à voir le jour. La loi de l’Union européenne sur l’IA est entrée en vigueur⁶ en août 2023 et les détails ont été finalisés en avril de cette année. Tout le monde surveillera l’impact de la législation européenne. Un décret présidentiel américain publié⁷ en octobre 2023 a introduit une longue liste de contrôles, y compris des rapports statutaires au-delà d’un certain niveau de puissance de calcul et de mise en réseau. On peut s’attendre à ce que les États-Unis, le Royaume-Uni et d’autres pays adoptent bientôt d’autres lois.

La science-fiction a la fâcheuse habitude de devenir une réalité scientifique.

Toutefois, si l’on ne demande pas des comptes à ceux qui développent l’IA, cette réglementation n’aura qu’une portée limitée. Pour l’instant, c’est le règne de la liberté. Si la technologie met des millions de personnes au chômage ou provoque une épidémie de troubles mentaux, les entreprises peuvent hausser les épaules et dire qu’elles ne contrôlent pas la manière dont les gens utilisent cette technologie. D’un autre côté, si les grandes entreprises sont les seules organisations désireuses ou capables d’investir les dizaines de milliards nécessaires au développement de ces systèmes d’IA, personne ne veut bloquer le processus et risquer de se laisser distancer par d’autres pays.

Nous avons besoin d’une législation et d’une réglementation qui rendent les organisations et les individus responsables de l’impact de leurs technologies. Cela les obligerait à réfléchir soigneusement à la manière dont leur technologie sera utilisée et leur imposerait d’explorer et de tester correctement l’impact de leur technologie. Vous pouvez constater qu’il s’agit d’un sujet de tension pour certaines entreprises de GenAI. Par exemple, OpenAI a perdu plusieurs de ses dirigeants⁸, chacun d’entre eux faisant allusion au manque de supervision dans le développement de GenAI.

Y a‑t-il autre chose que nous devrions surveiller ?

Il y a des avancées qui se profilent à l’horizon, et on peut les voir arriver. Et elles seront très importantes. Je pense que la convergence de l’informatique quantique et de l’IA sera intéressante. Certaines entreprises, comme IBM, présentent désormais leurs feuilles de route en matière d’informatique quantique. IBM prévoit 200 qubits et 100 millions de portes de calcul d’ici 2029⁹. Il s’agit d’une technologie très puissante qui pourrait permettre à l’IA d’apprendre en temps réel, ce qui est vraiment passionnant.

Au cours des 12 derniers mois environ, des personnes ont appliqué l’approche des grands modèles de langage à la robotique, ce que l’on appelle les modèles Vision Language Action (VLA). De la même manière que nous avons construit des modèles de base pour le texte et les images, nous pourrions être en mesure de les construire pour la perception, l’action et le mouvement robotique. L’objectif est de parvenir à ce que, par exemple, vous puissiez dire à un robot de ramasser une banane et qu’il ait suffisamment de connaissances générales pour non seulement repérer la banane avec son capteur, mais aussi savoir ce qu’il doit en faire, sans avoir besoin d’une entrée algorithmique spécifique. Il s’agit d’une avancée intéressante dans le domaine de la robotique, car elle permet à l’IA d’apprendre à partir de l’expérience physique et du monde réel.

Les mentors de l’IA pourraient constituer une autre avancée majeure. Les IA sont déjà utilisées pour générer du matériel d’apprentissage, mais on peut imaginer un monde où une IA scanne votre CV et est capable de vous suggérer des formations, des lectures, etc. Les IA pourraient également jouer le rôle de tuteurs, en vous guidant dans vos études, en vous suggérant des méthodes d’apprentissage, en vous faisant passer des examens et des évaluations, et en suivant votre évolution. Des écoles pilotent déjà l’utilisation de GenAI en tant que tuteurs. Par exemple, le David Game College de Londres¹⁰ teste un GCSE accéléré dans lequel les étudiants ne reçoivent que des cours d’IA. Vous entrez dans la boucle éducative et la modifiez entièrement.

La question qui se pose est alors la suivante : pourquoi iriez-vous à l’université ? Pourquoi iriez-vous à l’école, si ce n’est pour ses avantages sociaux ? L’IA pourrait changer fondamentalement notre façon d’apprendre et d’enseigner. Certains pourraient s’inquiéter du fait que nous commencions à construire de nouveaux systèmes éducatifs qui dépendent des entreprises technologiques américaines, plutôt que d’êtres humains qualifiés dans le pays.

Quel est le calendrier prévu pour ces avancées ?

Je pense que ce que nous avons appris ces deux dernières années, c’est que les choses peuvent arriver très vite. Elles ne sont jamais aussi farfelues que nous l’imaginons – la science-fiction a la fâcheuse habitude de devenir une réalité scientifique. Je dirais même qu’une grande partie de la science-fiction est très proche de la réalité.

Nous devons maintenant commencer à réfléchir aux conséquences de tout cela. Quel est le rôle de l’humanité dans cet avenir ? À quoi ressemblent les économies si les humains sont exclus de l’équation ? À quoi ressemblent la vérité et la démocratie lorsque tout peut être truqué ? À quoi ressemblera l’éducation, fondement de notre qualité de vie moderne, dans l’avenir ? Ce sont de très grandes questions fondamentales auxquelles je pense que personne n’a la réponse à l’heure actuelle.