Dans le cerveau d’une IA : de la curiosité à l’autonomie

Autres épisodes :

←

Addiction : taxer les réseaux sociaux comme le tabac

→

Colorer les neurones pour comprendre la mémoire

Dans la même thématique :

Pierre-Yves Oudeyer

directeur du laboratoire de recherche FLOWERS de l'Ensta Paris (IP Paris) et Inria

En bref

Comment mesure-t-on l’intelligence d’une intelligence artificielle ?

Ce n’est pas évident, car le terme d’« intelligence artificielle » est utilisé par le grand public pour désigner les objets développés au sein de ce champ de recherche, comme les logiciels équipés de système d’apprentissage. En fait, l’intelligence artificielle n’est pas une chose, mais un domaine de recherche qui essaie de modéliser certaines fonctions de la pensée humaine comme la mémoire, le raisonnement, l’apprentissage ou le langage. Donc on ne peut pas en mesurer l’intelligence.

En plus, la notion d’intelligence n’a pas de sens de manière générale. On ne peut pas dire qu’un ver de terre est plus bête qu’un humain. Chaque être vivant a des caractéristiques comportementales, morphologiques qui sont le résultat d’un processus évolutif lié à son environnement. Les vers de terre arrivent à trouver de la nourriture dans la terre. Et, dans leur écosystème, les êtres humains entretiennent des échanges sociaux, linguistiques ou culturels avec leurs congénères. Un ver de terre dans notre écosystème ne saurait pas faire grand-chose et un humain ne ferait pas mieux dans la terre.

Les objets technologiques sont aussi développés dans un contexte particulier. On ne peut pas dire des systèmes de reconnaissance vocale des smartphones qu’ils sont bêtes parce qu’ils ne comprennent pas le sens des phrases qu’ils transcrivent. Ils n’ont pas été entrainés pour ça, cela ne fait pas partie de leur écosystème.

Ce logiciel retranscrit et apprend, ne pourrait-il pas aussi comprendre ?

Fondamentalement le sens que nous associons à une phrase est incarné, il est interprété au regard des expériences sensorielles et motrices de notre corps dans son environnement. Si une machine n’a pas accès à un corps pour interagir physiquement avec notre monde, elle n’a aucune chance d’interpréter des phrases comme nous.

Par contre, on peut entrainer les modèles de langage avec de grosses bases de texte. Ils peuvent alors repérer des régularités statistiques et faire des choses étonnantes, comme répondre à une question simple, en prédisant les structures de phrases associées à un contexte. Ces outils sont très utiles dans le monde industriel, pour les interfaces homme-machine, où cette dernière doit interpréter une instruction en fonction du contexte. Pour faire cela, elle n’a pas forcément besoin de comprendre les phrases comme les humains.

Vous décrivez dans vos recherches que, chez l’humain, une partie de l’apprentissage est poussé par la curiosité. Peut-on implémenter cela dans un logiciel ?

C’est le cœur des travaux de mon équipe de recherche. Nous étudions les mécanismes de la curiosité, ce que les psychologues appellent la « motivation intrinsèque ». Chez les êtres vivants, ils permettent un apprentissage autonome. Nous développons des modèles algorithmiques de la curiosité afin d’éclairer les mécanismes en jeu, comme l’exploration spontanée. Celle-ci joue un rôle fondamental dans le développement sensoriel, cognitif et moteur des humains.

Nous testons ensuite nos théories auprès de volontaires ou de machines. Nous nous sommes ainsi aperçus que pour explorer efficacement un environnement, un robot doit privilégier les espaces où il progresse le plus, c’est-à-dire ceux où la différence entre sa prédiction et la réalité tend à se réduire. Par exemple, il a intérêt à jouer préférentiellement avec un objet avec lequel il progresse au fil de sa manipulation, plutôt qu’avec ceux qu’il maitrise immédiatement ou au contraire qu’il n’arrive pas du tout à utiliser. Nous avons montré de manière théorique que cette stratégie est efficace pour des robots. Savoir si les humains utilisent cette mesure de progrès pour guider leur exploration reste une question ouverte.

Pourtant cette mesure du progrès pourrait expliquer la tendance des humains à préférer les activités où ils ont des facilités à apprendre, non ?

Oui. Le mécanisme d’exploration en fonction du progrès entraine un effet boule de neige : au fil de l’exploration d’une activité, initiée par hasard ou à cause de contingences, on développe certains savoir-faire ou connaissances qui faciliteront l’apprentissage d’autres activités du même genre. Cela va nous encourager à aller dans cette direction. Cet aspect est aussi lié au plaisir que le cerveau génère quand il explore des activités nouvelles et qu’il apprend.

Cette hypothèse fondamentale explique une telle diversité dans des trajectoires d’apprentissage des individus. Pour la confirmer, nous avons comparé les comportements de volontaires adultes à ceux prédits par notre modèle numérique. Ces analyses ont montré que le progrès d’apprentissage et la mesure de performances de chaque tâche sont des mesures utilisées par les humains pour guider leur exploration, mais de manière différente : la combinaison de ces différences et de l’effet boule de neige mentionné plus haut explique ainsi la diversité des parcours d’apprentissage entre individus.

Ce modèle améliore-t-il les machines ?

Nos théories peuvent parfois être intégrées dans des machines pour les rendre plus flexibles. Mais le comportement d’exploration des humains n’est pas forcément le plus optimal. Par exemple, pour les robots destinés à explorer de manière autonome les fonds océaniques ou la planète Mars, on peut préférer d’autres mécaniques de curiosité, ne serait-ce que pour éviter au maximum que la machine ne fasse des choix dangereux.

Ce sont aussi des outils pour aider les humains à mieux apprendre ?

Il y a en effet des applications dans le domaine de l’éducation. Nous avons conçu un logiciel qui personnalise des séquences d’exercices en mathématiques pour des élèves. Il s’agit de proposer à chaque enfants une série qui optimise à la fois son apprentissage et sa motivation. On sait que cette dernière est un facteur d’échec scolaire important. Les dimensions motivationnelles incitent à persévérer et à faire des efforts. Grâce à nos modèles de curiosité, nous avons développé des algorithmes qui interagissent avec chaque enfant et proposent des séries d’exercices motivants selon son profil. Dans un projet précédent, Kidlearn, nous avons montré qu’en moyenne les propositions de notre logiciel faisaient progresser une plus grande diversité d’élèves, y compris ceux avec beaucoup de difficultés ou de facilités, que celles d’un expert en didactique. Ce gain était associé à un degré de motivation intrinsèque plus élevé. Nous travaillons aujourd’hui avec un consortium d’industriels du domaine des edTech afin de transférer cette approche dans un système numérique éducatif destiné à être utilisé à grande échelle dans les écoles primaires en France (c’est le projet Adaptiv’Maths). Ma collègue Hélène Sauzéon montre même que ce système facilite l’apprentissage d’enfants souffrant de troubles du développement de type autistique.

Article rédigé par Agnès Vernet