BIAIS IA
π Numérique π Science et technologies
Les nouveaux enjeux de l’IA

L’intelligence artificielle : outil de domination ou d’émancipation ?

avec Lê Nguyên Hoang, co-fondateur et président de Tournesol.app, Victor Berger, chercheur post-doctoral au CEA de Saclay et Giada Pistilli, doctorante en philosophie à Sorbonne Université et affiliée au laboratoire Science, Normes, Démocratie du CNRS
Le 17 janvier 2023 |
6 min. de lecture
Lê Nguyên Hoang
Lê Nguyên Hoang
co-fondateur et président de Tournesol.app
BERGER Victor
Victor Berger
chercheur post-doctoral au CEA de Saclay
PISTILLI Giada
Giada Pistilli
doctorante en philosophie à Sorbonne Université et affiliée au laboratoire Science, Normes, Démocratie du CNRS
En bref
  • Il existe trois façons d’apprendre à une intelligence artificielle (IA) : l’apprentissage supervisé, l’apprentissage non-supervisé et l’apprentissage par renforcement.
  • Or, les algorithmes de machine learning permettent de repérer des patterns : le moindre biais caché dans un jeu de données peut donc être exploité et amplifié.
  • La généralisation du passé peut poser problème car les algorithmes utilisent des données historiques pour répondre à des problèmes présents.
  • L’IA est aussi une arène de pouvoir : des problèmes éthiques peuvent émerger, comme celui de l’utilisation des données.
  • On peut faire de l’IA un véritable outil d’émancipation participatif que les communautés pourraient s’approprier.

Avant de s’atteler à la pro­blé­ma­tique des biais de l’IA, il faut com­prendre com­ment fonc­tionne un algo­rithme de machine lear­ning, mais aus­si ce que cela signi­fie. Pour Vic­tor Ber­ger, post-doc­to­rant au CEA-List en intel­li­gence arti­fi­cielle et en machine lear­ning, la meilleure tra­duc­tion fran­çaise du terme serait « appren­tis­sage sta­tis­tique »Le cher­cheur déve­loppe : « Le pos­tu­lat de base de la plu­part des algo­rithmes en machine lear­ning, c’est de dire qu’on a des don­nées qui sont sup­po­sé­ment une repré­sen­ta­tion sta­tis­tique du pro­blème qu’on sou­haite résoudre. »

Trois grands moyens d’apprentissage 

La façon la plus simple d’apprendre à une IA de machine lear­ning – tech­ni­que­ment par­lant – et la plus répan­due s’appelle l’apprentissage super­vi­sé. « Par exemple, si on a une base de don­nées rem­plie de pho­tos d’animaux, un algo­rithme super­vi­sé sau­ra déjà que telle pho­to repré­sente un chien, un chat, une poule, etc., et il sau­ra que pour telle entrée (ou input) il devra don­ner une réponse spé­ci­fique en sor­tie (ou out­put). Un exemple clas­sique de ce type d’algorithme, ce sont les tra­duc­teurs de langues »,explique Vic­tor Berger.

La deuxième famille d’algorithmes, l’apprentissage non-super­vi­sé, est géné­ra­le­ment uti­li­sée lorsque nous n’avons pas la solu­tion à un pro­blème : « Pour res­ter sur l’exemple des ani­maux, un algo­rithme d’apprentissage non-super­vi­sé contien­dra une base de don­nées avec les mêmes pho­tos que le pré­cé­dent, sans avoir d’instruction pré­cise sur com­ment il doit réagir en sor­tie par rap­port à une entrée don­née. Son but est géné­ra­le­ment d’identifier des pat­terns sta­tis­tiques au sein du jeu de don­nées qu’on lui four­nit dans un objec­tif de caté­go­ri­sa­tion (ou de clus­te­ring). »

Toute la pro­blé­ma­tique réside dans les jeux de don­nées uti­li­sés pour super­vi­ser les algorithmes.

La troi­sième famille d’algorithmes est l’apprentissage par ren­for­ce­ment : « Dans les deux pre­mières familles, la façon dont est codé l’algorithme lui per­met de se diri­ger et de savoir com­ment s’améliorer. Cette com­po­sante est absente dans l’apprentissage par ren­for­ce­ment où l’algorithme sait juste s’il a cor­rec­te­ment rem­pli sa tâche ou non. Il n’a pas d’instructions concer­nant quelles direc­tions prendre pour deve­nir meilleur. Fina­le­ment, c’est l’environnement et sa réac­tion à la prise de déci­sion de l’algorithme qui va faire office de guide. » détaille Vic­tor Berger.

Dans les trois cas, toute la pro­blé­ma­tique réside dans les jeux de don­nées uti­li­sés pour super­vi­ser les algo­rithmes. Vic­tor Ber­ger nous rap­pelle que « les algo­rithmes de machine lear­ning per­mettent de repé­rer des pat­terns. Dès lors, le moindre biais qui se cache dans un jeu de don­nées peut biai­ser l’algorithme entier, qui va trou­ver le pat­tern biai­sé, l’exploiter et l’amplifier »

Généralisation des données

Pour Lê Nguyên Hoang, doc­teur en mathé­ma­tiques, vul­ga­ri­sa­teur sur la thé­ma­tique de l’intelligence arti­fi­cielle et co-fon­da­teur de Tour­ne­sol, l’hypothèse de la géné­ra­li­sa­tion des don­nées est omni­pré­sente dans le domaine du machine lear­ning : « Les ques­tions rela­tives à la qua­li­té des don­nées sont lar­ge­ment sous-esti­mées. Que ce soit dans le monde de la recherche ou dans l’industrie, c’est la concep­tion des algo­rithmes qui est mise en avant. Mais très peu de per­sonnes se posent la ques­tion de savoir si géné­ra­li­ser le pas­sé en entraî­nant des algo­rithmes avec des bases de don­nées his­to­riques sur les­quelles nous n’avons pas de regard cri­tique est vrai­ment un pro­jet de socié­té sou­hai­table. »

Afin de mieux com­prendre com­ment cela peut se mani­fes­ter, Vic­tor Ber­ger fait réfé­rence à une anec­dote spé­ci­fique qui cir­cule dans le milieu du machine lear­ning : « Sou­cieuse d’éviter des biais sexistes, une entre­prise uti­li­sant une IA pour trier les CV a exclu les infor­ma­tions telles que le nom et les pho­tos. Mais ils se sont ren­du compte qu’elle avait rete­nu le foot comme centre d’intérêt en tant que cri­tère per­ti­nent. » Aus­si pru­dente qu’ait été l’entreprise, elle a four­ni ses don­nées his­to­riques sans anti­ci­per la pré­sence d’un pat­tern : les CV les plus recru­tés par le pas­sé – ceux des hommes – com­por­taient plus sou­vent le centre d’intérêt « foot­ball ». Loin de lut­ter contre le biais sexiste, l’algorithme l’a entre­te­nu. Pour gérer ce type de pro­blème, il existe deux solu­tions : « Soit des humains sont char­gés de consti­tuer des bases de don­nées plus qua­li­ta­tives – mais cela demande un tra­vail colos­sal – ; soit des algo­rithmes sont char­gés d’éliminer les biais déjà iden­ti­fiés » explique Vic­tor Berger. 

Mais ça ne résout pas tout. « Si on prend l’exemple de la modé­ra­tion de conte­nu, l’étiquetage des don­nées va dépendre du concept de liber­té d’expression qu’on défend, de ce qu’on estime être ou non un appel à la haine ou une fausse infor­ma­tion dan­ge­reuse, donc des ques­tions qui n’ont pas de réponses claires et où il y aura des désac­cords. Dès lors, si la ques­tion n’est pas juste tech­nique, il en va de même pour les solu­tions. » sou­ligne Lê Nguyên Hoang.

Boucles de rétroaction

Des ques­tions se posent aus­si sur les boucles de rétro­ac­tion que les algo­rithmes peuvent cau­ser : « Ce qu’il faut bien avoir en tête, c’est qu’un algo­rithme de machine lear­ning est tou­jours pres­crip­tif, car son but est d’atteindre un objec­tif pré­cis : maxi­mi­ser la pré­sence sur une pla­te­forme, le pro­fit, le taux de clics, etc. » pointe Lê Nguyên Hoang.

Ima­gi­nez un algo­rithme uti­li­sé par les forces de police d’une col­lec­ti­vi­té char­gé de pré­dire dans quel quar­tier il va y avoir le plus de crimes et d’agressions. Vic­tor Ber­ger sou­tient que « ce que va faire cet algo­rithme, c’est une pré­dic­tion sur la base de don­nées his­to­riques de la police qui recense les quar­tiers dans les­quels le plus de gens se sont fait arrê­ter. » Là encore, on retombe sur le même tra­vers : le risque de géné­ra­li­sa­tion – voire d’amplification – du pas­sé. En effet, cette pré­dic­tion n’est pas seule­ment des­crip­tive, elle conduit à une prise de déci­sion : ren­for­cer les effec­tifs de police, accroître la vidéo­sur­veillance, etc. Des déci­sions qui peuvent ame­ner à ren­for­cer un cli­mat déjà tendu.

Les phé­no­mènes de radi­ca­li­sa­tion, de mou­vances sec­taires et de sphères com­plo­tistes peuvent se retrou­ver amplifiés. 

De même, sur les réseaux sociaux et les pla­te­formes de diver­tis­se­ment, les algo­rithmes de recom­man­da­tion se basent sur les choix pré­cé­dents de l’utilisateur. Leur objec­tif est géné­ra­le­ment d’accaparer son atten­tion le plus long­temps pos­sible. Dès lors, les phé­no­mènes de radi­ca­li­sa­tion, de mou­vances sec­taires et de sphères com­plo­tistes peuvent se retrou­ver ampli­fiés. Lê Nguyên Hoang tra­vaille à résoudre ce pro­blème à l’aide d’un algo­rithme, qui se nomme Tour­ne­sol, dont la base de don­nées est consti­tuée de façon col­la­bo­ra­tive1

Les enjeux de pouvoir 

L’intelligence arti­fi­cielle n’est donc pas seule­ment un domaine d’étude scien­ti­fique ou encore un champ d’application tech­no­lo­gique. C’est aus­si une arène de pou­voir. « Il est très impor­tant d’analyser et de lis­ter les dif­fé­rents pro­blèmes sociaux et éthiques qui peuvent sur­ve­nir à cause de ces algo­rithmes, de leur entraî­ne­ment en pas­sant par leur concep­tion et jusqu’à leur déploie­ment. » pré­vient Gia­da Pis­tilli, cher­cheuse en phi­lo­so­phie et éthi­cienne prin­ci­pale chez Hug­ging Face.

Jus­te­ment, de quelle nature sont ces pro­blèmes ? La cher­cheuse en phi­lo­so­phie nous explique qu’on peut les retrou­ver à tous les niveaux de la chaîne de déve­lop­pe­ment d’une IA : « Il peut y avoir des pro­blèmes éthiques qui émergent dès l’en­traî­ne­ment d’un modèle à cause de la pro­blé­ma­tique des don­nées : les don­nées peuvent-elles conduire à une sté­réo­ty­pi­sa­tion ? Quelles sont les consé­quences de l’absence de cer­taines don­nées ? Est-ce que les don­nées uti­li­sées – images pri­vées, pro­prié­té intel­lec­tuelle – ont fait l’objet d’un consen­te­ment à l’utilisation avant de ser­vir de data­set d’entraînement pour le modèle ? »

Mais c’est loin d’être le seul maillon pro­blé­ma­tique de la chaîne : « Lors du déve­lop­pe­ment et du déploie­ment, des ques­tions de gou­ver­nance se posent. Qui pos­sède le modèle, qui le conçoit et dans quel objec­tif ? On peut éga­le­ment poser la ques­tion de la néces­si­té de cer­tains modèles à l’aune des chan­ge­ments cli­ma­tiques. Faire tour­ner de tels modèles, cela consomme énor­mé­ment d’éner­gie. De fait, cela met en exergue le fait que seules les com­pa­gnies puis­santes ont suf­fi­sam­ment de moyens pour les uti­li­ser. »pré­vient la chercheuse.

Nous pou­vons faire de l’IA un véri­table outil d’émancipation que les com­mu­nau­tés pour­raient s’approprier.

Heu­reu­se­ment, le tableau n’est pas tout noir. On peut faire de l’intelligence arti­fi­cielle un outil d’émancipation. Gia­da Pis­tilli est membre de Big­Science, un pro­jet col­la­bo­ra­tif réunis­sant des mil­liers d’universitaires et qui a pour voca­tion de déve­lop­per un modèle de langues en libre accès. Selon elle, de tels pro­jets peuvent rendre l’IA robus­te­ment béné­fique : « En déve­lop­pant une IA spé­cia­li­sée sur une seule tâche, on peut la rendre plus faci­le­ment audi­table, par­ti­ci­pa­tive et adap­tée à la com­mu­nau­té qui va s’en ser­vir. En édu­quant les uti­li­sa­teurs sur ces nou­velles tech­no­lo­gies et en les inté­grant au pro­jet de consti­tu­tion des bases de don­nées, on peut faire de l’IA un véri­table outil d’émancipation que les com­mu­nau­tés pour­raient s’approprier. »

 Sau­rons-nous être à la hau­teur de ces mul­tiples enjeux ? La ques­tion reste entière.

Julien Hernandez 
1https://​www​.futu​ra​-sciences​.com/​t​e​c​h​/​a​c​t​u​a​l​i​t​e​s​/​i​n​t​e​l​l​i​g​e​n​c​e​-​a​r​t​i​f​i​c​i​e​l​l​e​-​t​o​u​r​n​e​s​o​l​-​a​l​g​o​r​i​t​h​m​e​-​u​t​i​l​i​t​e​-​p​u​b​l​i​q​u​e​-​b​e​s​o​i​n​-​v​o​u​s​-​8​7301/

Soutenez une information fiable basée sur la méthode scientifique.

Faire un don