3_machineLearning
π Numérique π Science et technologies
Les nouveaux enjeux de l’IA

Comment corriger les biais du Machine Learning ?

avec Sophy Caulier, journaliste indépendante
Le 1 décembre 2021 |
5min. de lecture
Stéphan Clémençon
Stephan Clémençon
Professeur en mathématiques appliquées à Télécom Paris (IP Paris)
En bref
  • L’IA est un ensemble d’outils, de méthodes et de technologies qui permettent à un système d’effectuer des tâches de façon quasi autonome.
  • La question de la confiance que l’on peut avoir dans les outils de Machine Learning (ML) est récurrente, car l’apprentissage profond requiert de très grands volumes de données, lesquels proviennent bien souvent du web.
  • Il y a différents types de biais pouvant être relatifs aux données ; les biais dits « de sélection », liés au manque de représentativité, ceux « d’omission », dus à l’endogénéité, etc.
  • Lorsque les données dont on dispose sont trop rares pour pouvoir mettre en œuvre le ML de façon simple, on parle alors de « signaux faibles ». L’hybridation des techniques ML et symboliques en IA pourrait apporter des solutions.

Quels sont les grands défis aux­quels l’intelligence arti­fi­cielle est actuel­le­ment confrontée ?

Dans mon domaine d’expertise, qui est le « machine lear­ning » (ML), les trois sujets qui me pas­sionnent en ce moment, et que l’on pour­rait éven­tuel­le­ment consi­dé­rer comme de grands défis dans ce domaine, sont les biais et l’équité, les signaux faibles et l’apprentissage sur les réseaux. Mais ce n’est qu’une vue par­tielle des défis en IA, qui est un domaine très vaste et sur­tout inter­dis­ci­pli­naire. L’IA est un ensemble d’outils, de méthodes et de tech­no­lo­gies qui per­mettent à un sys­tème d’effectuer des tâches de façon qua­si auto­nome et il existe dif­fé­rentes manières d’y parvenir.

Le ML consiste pour la machine à apprendre à par­tir d’exemples, à s’entraîner pour effec­tuer des tâches avec effi­ca­ci­té par la suite. Les grands suc­cès en la matière sont la vision par ordi­na­teur et l’écoute auto­ma­tique, uti­li­sées pour des appli­ca­tions en bio­mé­trie par exemple, ain­si que le trai­te­ment du lan­gage natu­rel. Une des ques­tions qui se posent actuel­le­ment est celle de la confiance que l’on peut avoir dans les outils de ML, car l’apprentissage pro­fond requiert de très grands volumes de don­nées, les­quels pro­viennent bien sou­vent du web.

Les don­nées du web ne s’acquièrent pas de façon « contrôlée ».

Contrai­re­ment aux jeux de don­nées qui étaient aupa­ra­vant col­lec­tés par les cher­cheurs, les don­nées du web ne s’acquièrent pas de façon « contrô­lée ». Et le carac­tère mas­sif de ces don­nées peut par­fois conduire à igno­rer les ques­tions métho­do­lo­giques que l’on devrait se poser pour exploi­ter l’information qu’elles contiennent. Par exemple, entraî­ner un modèle de recon­nais­sance de visages direc­te­ment à par­tir de don­nées du web peut conduire à des biais, au sens où le modèle ne recon­nai­trait pas tous les types de visages avec la même effi­ca­ci­té. Dans ce cas, le biais peut être induit par un manque de repré­sen­ta­ti­vi­té des visages uti­li­sés pour l’apprentissage.

Si par exemple les don­nées cor­res­pondent majo­ri­tai­re­ment à des visages de type cau­ca­sien, le sys­tème éla­bo­ré pour­rait recon­naître plus faci­le­ment les visages cau­ca­siens que des visages d’autres types. Tou­te­fois, les dis­pa­ri­tés de per­for­mance peuvent aus­si tenir à la dif­fi­cul­té intrin­sèque du pro­blème de pré­dic­tion et/ou aux limites des tech­niques actuelles de ML : il est notoire par exemple que le niveau de per­for­mance atteint pour la recon­nais­sance des visages de nou­veaux-nés, par appren­tis­sage pro­fond, est beau­coup plus faible que pour des visages d’adultes. Mais on n’a pas aujourd’hui d’éclairage théo­rique clair sur le lien entre la struc­ture du réseau de neu­rones pro­fond uti­li­sé et les per­for­mances du modèle pour une tâche donnée.

Vous dites « aujourd’hui ». Cela signi­fie que ces biais pour­raient un jour être sup­pri­més ou que leur effet pour­rait diminuer ?

Il y a dif­fé­rents types de biais. Ils peuvent être rela­tifs aux don­nées, il y a les biais dits « de sélec­tion », liés au manque de repré­sen­ta­ti­vi­té, « d’omission », dus à l’endogénéité, etc. Des biais sont aus­si inhé­rents au choix du modèle de réseaux de neu­rones, de la méthode de ML, choix inévi­ta­ble­ment res­treint à l’état de l’art et limi­té par la tech­no­lo­gie actuelle. Demain, nous uti­li­se­rons peut-être d’autres repré­sen­ta­tions de l’information, plus effi­caces, moins gour­mandes en cal­cul, que l’on pour­rait déployer plus faci­le­ment, qui dimi­nue­ront ou sup­pri­me­ront peut-être ces biais, mais pour l’instant, ils existent !

Quel est le rôle de la qua­li­té des jeux de don­nées, uti­li­sés pour les appren­tis­sages, dans ces biais ?

Il est très impor­tant. Comme je l’ai dit, étant don­né la volu­mé­trie néces­saire, les don­nées pro­viennent sou­vent du web et ne sont donc pas acquises de façon suf­fi­sam­ment contrô­lée pour en assu­rer la repré­sen­ta­ti­vi­té. Mais il y a aus­si le fait que ces don­nées peuvent être « conta­mi­nées », de manière mal­veillante. La ques­tion se pose actuel­le­ment pour les solu­tions de vision par ordi­na­teur qui équi­pe­ront les véhi­cules auto­nomes. On peut trom­per le véhi­cule en mani­pu­lant les infor­ma­tions en entrée. Il est pos­sible de modi­fier l’image pixe­li­sée, d’un pan­neau de signa­li­sa­tion par exemple, de façon à ce que l’œil humain ne per­çoive aucune dif­fé­rence, mais que le réseau de neu­rones y « voit » quelque chose d’autre que le pan­neau de signalisation.

Le ML repose sur un prin­cipe fré­quen­tiste et la ques­tion de la repré­sen­ta­ti­vi­té des don­nées en phase d’apprentissage est un enjeu majeur. Pour reprendre l’exemple de la conduite auto­nome, nous voyons aujourd’hui cir­cu­ler de nom­breux véhi­cules sur le pla­teau de Saclay, équi­pés de cap­teurs pour emma­ga­si­ner le plus d’expériences pos­sible. Cela dit, il est dif­fi­cile de dire dans com­bien de temps nous aurons vu suf­fi­sam­ment de situa­tions pour pou­voir déployer un sys­tème assez intel­li­gent et fiable dans ce domaine, per­met­tant de faire face à toutes les situa­tions futures.

Il y a certes des appli­ca­tions pour les­quelles les don­nées dis­po­nibles aujourd’hui per­mettent de mettre en œuvre le ML de façon satis­fai­sante. C’est le cas par exemple pour la recon­nais­sance de l’écriture manus­crite, pour laquelle des réseaux de neu­rones sont par­fai­te­ment au point. Pour d’autres pro­blèmes, en plus des don­nées expé­ri­men­tales, on aura aus­si recours à des modèles géné­ra­tifs, pro­dui­sant des don­nées arti­fi­cielles ren­dant compte de situa­tions adverses, mais sans pou­voir pré­tendre à l’exhaustivité. C’est le cas pour les appli­ca­tions du ML en cyber­sé­cu­ri­té, afin de ten­ter de détec­ter auto­ma­ti­que­ment les intru­sions mal­veillantes dans un réseau par exemple.

D’une manière géné­rale, il existe de nom­breux pro­blèmes pour les­quels les don­nées dont on dis­pose sont trop rares pour pou­voir mettre en œuvre le ML de façon simple. On parle alors de « signaux faibles », c’est sou­vent le cas en détec­tion d’anomalie, pour la main­te­nance pré­dic­tive de sys­tèmes com­plexes en par­ti­cu­lier. Dans cer­tains cas, l’hybridation des tech­niques ML et sym­bo­liques en IA pour­rait appor­ter des solu­tions. Ces pistes sont explo­rées dans le domaine aérien, civil ou mili­taire, ain­si qu’en ima­ge­rie médi­cale. Au-delà de leur effi­ca­ci­té, de telles approches peuvent per­mettre aus­si aux machines de prendre des déci­sions plus faciles à expli­quer et interpréter.

Qu’est-ce qui fait évo­luer l’IA aujourd’hui ?

Le domaine des mathé­ma­tiques apporte beau­coup, notam­ment en ce qui concerne la repré­sen­ta­tion effi­cace de l’information et l’algorithmie. Mais c’est aus­si le pro­grès tech­no­lo­gique qui fait avan­cer l’IA. Le concept mathé­ma­tique de réseau de neu­rones existe depuis de nom­breuses décen­nies. Les pro­grès tech­niques récem­ment réa­li­sés, en par­ti­cu­lier dans le domaine de la mémoire, ont per­mis de mettre en œuvre les modèles de réseaux de neu­rones pro­fonds, avec le suc­cès que l’on connait. De même, les archi­tec­tures de cal­cul dis­tri­bué et les fra­me­works de pro­gram­ma­tion dédiés ont ren­du pos­sible le pas­sage à l’échelle pour l’apprentissage sur de grands volumes de don­nées. Reste à conce­voir des approches plus fru­gales, de façon à dimi­nuer l’empreinte car­bone des cal­culs, un sujet d’actualité !

Soutenez une information fiable basée sur la méthode scientifique.

Faire un don