3_machineLearning
π Science et technologies
Les nouveaux enjeux de l’IA

Comment corriger les biais du Machine Learning ?

Sophy Caulier, journaliste indépendante
Le 1 décembre 2021 |
5 mins de lecture
1
Comment corriger les biais du Machine Learning ?
Stéphan Clémençon
Stephan Clémençon
professeur en mathématiques appliquées à Télécom Paris (IP Paris)
En bref
  • L’IA est un ensemble d’outils, de méthodes et de technologies qui permettent à un système d’effectuer des tâches de façon quasi autonome.
  • La question de la confiance que l’on peut avoir dans les outils de Machine Learning (ML) est récurrente, car l’apprentissage profond requiert de très grands volumes de données, lesquels proviennent bien souvent du web.
  • Il y a différents types de biais pouvant être relatifs aux données ; les biais dits « de sélection », liés au manque de représentativité, ceux « d’omission », dus à l’endogénéité, etc.
  • Lorsque les données dont on dispose sont trop rares pour pouvoir mettre en œuvre le ML de façon simple, on parle alors de « signaux faibles ». L’hybridation des techniques ML et symboliques en IA pourrait apporter des solutions.

Quels sont les grands défis aux­quels l’intelligence arti­fi­cielle est actuelle­ment confrontée ?

Dans mon domaine d’expertise, qui est le « machine learn­ing » (ML), les trois sujets qui me pas­sion­nent en ce moment, et que l’on pour­rait éventuelle­ment con­sid­ér­er comme de grands défis dans ce domaine, sont les biais et l’équité, les sig­naux faibles et l’apprentissage sur les réseaux. Mais ce n’est qu’une vue par­tielle des défis en IA, qui est un domaine très vaste et surtout inter­dis­ci­plinaire. L’IA est un ensem­ble d’outils, de méth­odes et de tech­nolo­gies qui per­me­t­tent à un sys­tème d’effectuer des tâch­es de façon qua­si autonome et il existe dif­férentes manières d’y parvenir.

Le ML con­siste pour la machine à appren­dre à par­tir d’exemples, à s’entraîner pour effectuer des tâch­es avec effi­cac­ité par la suite. Les grands suc­cès en la matière sont la vision par ordi­na­teur et l’écoute automa­tique, util­isées pour des appli­ca­tions en bio­métrie par exem­ple, ain­si que le traite­ment du lan­gage naturel. Une des ques­tions qui se posent actuelle­ment est celle de la con­fi­ance que l’on peut avoir dans les out­ils de ML, car l’apprentissage pro­fond requiert de très grands vol­umes de don­nées, lesquels provi­en­nent bien sou­vent du web.

Con­traire­ment aux jeux de don­nées qui étaient aupar­a­vant col­lec­tés par les chercheurs, les don­nées du web ne s’acquièrent pas de façon « con­trôlée ». Et le car­ac­tère mas­sif de ces don­nées peut par­fois con­duire à ignor­er les ques­tions méthodologiques que l’on devrait se pos­er pour exploiter l’information qu’elles con­ti­en­nent. Par exem­ple, entraîn­er un mod­èle de recon­nais­sance de vis­ages directe­ment à par­tir de don­nées du web peut con­duire à des biais, au sens où le mod­èle ne recon­naitrait pas tous les types de vis­ages avec la même effi­cac­ité. Dans ce cas, le biais peut être induit par un manque de représen­ta­tiv­ité des vis­ages util­isés pour l’apprentissage.

Si par exem­ple les don­nées cor­re­spon­dent majori­taire­ment à des vis­ages de type cau­casien, le sys­tème élaboré pour­rait recon­naître plus facile­ment les vis­ages cau­casiens que des vis­ages d’autres types. Toute­fois, les dis­par­ités de per­for­mance peu­vent aus­si tenir à la dif­fi­culté intrin­sèque du prob­lème de pré­dic­tion et/ou aux lim­ites des tech­niques actuelles de ML : il est notoire par exem­ple que le niveau de per­for­mance atteint pour la recon­nais­sance des vis­ages de nou­veau-nés, par appren­tis­sage pro­fond, est beau­coup plus faible que pour des vis­ages d’adultes. Mais on n’a pas aujourd’hui d’éclairage théorique clair sur le lien entre la struc­ture du réseau de neu­rones pro­fond util­isé et les per­for­mances du mod­èle pour une tâche donnée.

Vous dites « aujourd’hui ». Cela sig­ni­fie que ces biais pour­raient un jour être sup­primés ou leur effet pour­rait diminuer ?

Il y a dif­férents types de biais. Ils peu­vent être relat­ifs aux don­nées, il y a les biais dits « de sélec­tion », liés au manque de représen­ta­tiv­ité, « d’omission », dus à l’endogénéité, etc. Des biais sont aus­si inhérents au choix du mod­èle de réseaux de neu­rones, de la méth­ode de ML, choix inévitable­ment restreint à l’état de l’art et lim­ité par la tech­nolo­gie actuelle. Demain, nous utilis­erons peut-être d’autres représen­ta­tions de l’information, plus effi­caces, moins gour­man­des en cal­cul, que l’on pour­rait déploy­er plus facile­ment, qui dimin­ueront ou sup­primeront peut-être ces biais, mais pour l’instant, ils existent !

Quel est le rôle de la qual­ité des jeux de don­nées, util­isés pour les appren­tis­sages, dans ces biais ?

Il est très impor­tant. Comme je l’ai dit, étant don­né la volumétrie néces­saire, les don­nées provi­en­nent sou­vent du web et ne sont donc pas acquis­es de façon suff­isam­ment con­trôlée pour en assur­er la représen­ta­tiv­ité. Mais il y a aus­si le fait que ces don­nées peu­vent être « con­t­a­m­inées », de manière malveil­lante. La ques­tion se pose actuelle­ment pour les solu­tions de vision par ordi­na­teur qui équiper­ont les véhicules autonomes. On peut tromper le véhicule en manip­u­lant les infor­ma­tions en entrée. Il est pos­si­ble de mod­i­fi­er l’image pix­elisée, d’un pan­neau de sig­nal­i­sa­tion par exem­ple, de façon à ce que l’œil humain ne perçoive aucune dif­férence, mais que le réseau de neu­rones y « voit » quelque chose d’autre que le pan­neau de signalisation.

Le ML repose sur un principe fréquen­tiste et la ques­tion de la représen­ta­tiv­ité des don­nées en phase d’apprentissage est un enjeu majeur. Pour repren­dre l’exemple de la con­duite autonome, nous voyons aujourd’hui cir­culer de nom­breux véhicules sur le plateau de Saclay, équipés de cap­teurs pour emma­gasin­er le plus d’expériences pos­si­ble. Cela dit, il est dif­fi­cile de dire dans com­bi­en de temps nous aurons vu suff­isam­ment de sit­u­a­tions pour pou­voir déploy­er un sys­tème assez intel­li­gent et fiable dans ce domaine, per­me­t­tant de faire face à toutes les sit­u­a­tions futures.

Il y a certes des appli­ca­tions pour lesquelles les don­nées disponibles aujourd’hui per­me­t­tent de met­tre en œuvre le ML de façon sat­is­faisante. C’est le cas par exem­ple pour la recon­nais­sance de l’écriture man­u­scrite, pour laque­lle des réseaux de neu­rones sont par­faite­ment au point. Pour d’autres prob­lèmes, en plus des don­nées expéri­men­tales, on aura aus­si recours à des mod­èles générat­ifs, pro­duisant des don­nées arti­fi­cielles ren­dant compte de sit­u­a­tions advers­es, mais sans pou­voir pré­ten­dre à l’exhaustivité. C’est le cas pour les appli­ca­tions du ML en cyber­sécu­rité, afin de ten­ter de détecter automa­tique­ment les intru­sions malveil­lantes dans un réseau par exemple.

D’une manière générale, il existe de nom­breux prob­lèmes pour lesquels les don­nées dont on dis­pose sont trop rares pour pou­voir met­tre en œuvre le ML de façon sim­ple. On par­le alors de « sig­naux faibles », c’est sou­vent le cas en détec­tion d’anomalie, pour la main­te­nance pré­dic­tive de sys­tèmes com­plex­es en par­ti­c­uli­er. Dans cer­tains cas, l’hybridation des tech­niques ML et sym­bol­iques en IA pour­rait apporter des solu­tions. Ces pistes sont explorées dans le domaine aérien, civ­il ou mil­i­taire, ain­si qu’en imagerie médi­cale. Au-delà de leur effi­cac­ité, de telles approches peu­vent per­me­t­tre aus­si aux machines de pren­dre des déci­sions plus faciles à expli­quer et interpréter.

Qu’est-ce qui fait évoluer l’IA aujourd’hui ?

Le domaine des math­é­ma­tiques apporte beau­coup, notam­ment en ce qui con­cerne la représen­ta­tion effi­cace de l’information et l’algorithmie. Mais c’est aus­si le pro­grès tech­nologique qui fait avancer l’IA. Le con­cept math­é­ma­tique de réseau de neu­rones existe depuis de nom­breuses décen­nies. Les pro­grès tech­niques récem­ment réal­isés, en par­ti­c­uli­er dans le domaine de la mémoire, ont per­mis de met­tre en œuvre les mod­èles de réseaux de neu­rones pro­fonds, avec le suc­cès que l’on con­nait. De même, les archi­tec­tures de cal­cul dis­tribué et les frame­works de pro­gram­ma­tion dédiés ont ren­du pos­si­ble le pas­sage à l’échelle pour l’apprentissage sur de grands vol­umes de don­nées. Reste à con­cevoir des approches plus fru­gales, de façon à dimin­uer l’empreinte car­bone des cal­culs, un sujet d’actualité !