Accueil / Chroniques / Comment l’IA pourrait humaniser les robots
Généré par l'IA / Generated using AI
π Science et technologies π Société

Comment l’IA pourrait humaniser les robots

anonyme
Edward Johns
directeur du Robot Learning Lab à l'Imperial College de Londres
En bref
  • Les grands modèles de langage (LLM) et les modèles vision-langage auront un impact important sur le futur de la robotique.
  • Les robots peuvent désormais communiquer en langage naturel, décomposer des tâches en étapes ou encore raisonner à l’aide d’images.
  • Cependant, les LLM ne permettent pas efficacement aux robots de manipuler leur environnement avec les mains ou d’interagir avec un univers en 3D.
  • Des potentialités de développement de la robotique à l’aide de l’IA générative existent, comme celle pour le robot de raisonner en vidéo et en action.

En regar­dant les vidéos publiées par des entre­prises de robo­tique telles que Tes­la et Figure, on pour­rait croire que les robots seront pré­sents demain dans nos mai­sons, capables d’exé­cu­ter n’im­porte quelle com­mande for­mu­lée par un humain grâce aux pro­grès réa­li­sés avec les grands modèles de lan­gage (LLM). C’est peut-être le cas, mais il y a d’a­bord des obs­tacles impor­tants à fran­chir, explique Edward Johns, direc­teur du Robot Lear­ning Lab à l’Im­pe­rial Col­lege de Londres.

Nous avons assisté à des progrès stratosphériques dans le domaine des grands modèles de langage. Cela va-t-il donner un coup de fouet à la robotique ?

Edward Johns. Ce qui s’est pas­sé avec les grands réseaux neu­ro­naux, tels que les modèles de lan­gage et les modèles de vision-lan­gage, aura un impact impor­tant sur la robo­tique. Ces modèles nous aident déjà à rele­ver cer­tains des défis aux­quels nous étions confron­tés. Mais nous n’al­lons cer­tai­ne­ment pas assis­ter du jour au len­de­main à l’é­mer­gence d’un équi­valent de ChatGPT dans le domaine de la robotique.

Les LLM per­mettent aux opé­ra­teurs de com­mu­ni­quer avec le robot en lan­gage natu­rel plu­tôt que d’en­trer du code. C’est utile car, en fin de compte, c’est ain­si que nous vou­lons que les humains inter­agissent avec eux. Plus impor­tant encore, ces modèles peuvent ouvrir une nou­velle voie de rai­son­ne­ment pour les robots : ChatGPT, par exemple, peut décom­po­ser les tâches en étapes. Ain­si, si vous lui deman­dez com­ment faire un sand­wich, il vous répon­dra : vous avez besoin de pain, vous devez ache­ter du pain, vous devez trou­ver un maga­sin, prendre votre por­te­feuille, quit­ter la mai­son, etc. Cela signi­fie que les robots peuvent apprendre à décom­po­ser les tâches en interne, et nous savons qu’ils sont plus per­for­mants lors­qu’ils dis­posent d’un guide étape par étape.

Au cours des der­niers mois, nous avons éga­le­ment assis­té à l’é­mer­gence de ce que l’on appelle les « modèles vision-lan­gage », qui per­mettent au robot de rai­son­ner non seule­ment en lan­gage, mais aus­si en images. Cette avan­cée est impor­tante car, à un moment don­né, les robots ont besoin d’a­jou­ter des infor­ma­tions visuelles à leur rai­son­ne­ment pour navi­guer dans leur environnement.

Quelle est donc la limite de l’utilisation des LLM pour les robots ?

Bien qu’il s’a­gisse de modèles inté­res­sants à étu­dier, ils résolvent cer­tains des défis les plus faciles à rele­ver dans le domaine de la robo­tique. Ils n’ont pas eu un impact énorme en termes de mani­pu­la­tion dextre, par exemple, c’est-à-dire de mani­pu­la­tion avec les mains. Or, il s’a­git d’un pro­blème de la robo­tique qui est encore vrai­ment dif­fi­cile à résoudre. Nos mains accom­plissent des mil­liers et des mil­liers de tâches com­plexes chaque jour.

L’un des pro­blèmes est que si ces modèles de lan­gage de vision sont très bons d’un point de vue séman­tique, ils ne pour­ront cepen­dant pas aider le robot à inter­agir avec un envi­ron­ne­ment 3D, parce qu’ils ont été for­més sur des images 2D. Pour que les robots puissent rai­son­ner à ce niveau, ils ont besoin d’une énorme quan­ti­té de don­nées robo­tiques, qui n’existent tout sim­ple­ment pas. Cer­tains pensent qu’elles émer­ge­ront très rapi­de­ment, comme la pou­drière que nous avons eu depuis l’é­mer­gence de ChatGPT – c’est en tout cas ce que nous enten­dons dans les com­mu­nau­tés de star­tups. Mais dans le cas de ChatGPT, les don­nées exis­taient déjà en ligne. Il fau­dra donc beau­coup de temps pour com­pi­ler ces don­nées dans le champ de la robotique.

Le type d’a­van­cées que l’on peut obser­ver chez les entre­prises lea­ders dans le domaine de la robo­tique, comme Tes­la et Figure, est très impres­sion­nant. Par exemple, Figure pro­pose des démons­tra­tions vidéo inté­res­santes dans les­quelles quel­qu’un converse avec un robot qui effec­tue des tâches avec ses mains. Mais ces robots doivent encore être entraî­nés à effec­tuer des tâches spé­ci­fiques à l’aide d’ap­proches d’ap­pren­tis­sage auto­ma­tique telles que l’ap­pren­tis­sage par ren­for­ce­ment, qui consiste à dire au robot d’ef­fec­tuer une tâche et à lui indi­quer s’il y par­vient après quelques essais.

Les robots ne pourraient-ils pas rassembler les données dont ils ont besoin et les compiler avec les informations qu’ils apprennent des LLM ? 

Je pense que c’est ce sur quoi cer­tains parient. Pou­vons-nous lais­ser les robots col­lec­ter eux-mêmes ces don­nées – c’est-à-dire les lais­ser dans une pièce pen­dant une nuit avec une tâche et des objets – et voir ce qu’ils ont appris pen­dant la nuit ? Ce type de rai­son­ne­ment est uti­li­sé dans l’ap­pren­tis­sage par ren­for­ce­ment, et la com­mu­nau­té s’est pré­cé­dem­ment éloi­gnée de cette approche après avoir réa­li­sé qu’elle géné­rait des résul­tats frus­trants qui n’al­laient nulle part. Mais nous pour­rions assis­ter à un revi­re­ment dans le contexte de ces modèles vision-langage.

La robo­tique peut encore faire l’ob­jet de décou­vertes scien­ti­fiques. Je pense qu’il y a encore beau­coup de tra­vail à faire. Par exemple, j’es­saie de faire en sorte que les robots apprennent une tâche en quelques minutes et avec un ensei­gnant non expert.

Décou­vrez le numé­ro de notre maga­zine Le 3,14 dédié à l’IA. Dis­po­nible ici

Pensez-vous que les LLM et les modèles vision-langage en robotique ne seront qu’un feu de paille ?

Je ne pense pas que ce soit le cas. Il est vrai que ces nou­velles approches n’ont eu qu’un impact mineur en robo­tique par rap­port aux méthodes plus anciennes. Tou­te­fois, si l’in­gé­nie­rie clas­sique a atteint un cer­tain point de satu­ra­tion, les modèles de lan­gage de vision s’a­mé­lio­re­ront avec le temps.

Si nous nous pro­je­tons dans l’a­ve­nir, par exemple, nous pour­rions voir des modèles d’IA géné­ra­tive pro­duire une vidéo pré­di­sant les consé­quences de ses actions. Si nous par­ve­nons à ce stade, le robot pour­ra com­men­cer à rai­son­ner en vidéo et en action – il y a là un grand poten­tiel pour la robotique.

Propos recueillis par Marianne Guenot

Soutenez une information fiable basée sur la méthode scientifique.

Faire un don