Accueil / Chroniques / IA : le travail caché mais bien réel des ouvriers de la donnée
Généré par l'IA / Generated using AI
π Numérique

IA : le travail caché mais bien réel des ouvriers de la donnée

Antonio Casilli
Antonio Casilli
sociologue, professeur à Télécom Paris (IP Paris), et chercheur associé au Minderoo Centre for Democracy and Technology, Université de Cambridge
En bref
  • L’apprentissage des IA repose sur des humains, pas seulement des experts, mais aussi beaucoup de travailleurs sous-payés et précaires qui les font fonctionner au quotidien.
  • Ces travailleurs sont de plus en plus jeunes, surtout entre 18 et 35 ans (parfois jusqu’à 44 ans ou plus) qui sont surqualifiées et surdiplômées par rapport au travail qu’ils font.
  • Les data workers sont fortement exposés aux risques psychosociaux : beaucoup travaillent isolés chez eux, d’autres dans des conditions très contraignantes et vulnérabilisantes.
  • Certains ouvriers de la donnée se retrouvent à travailler dans leur pays sur des outils qui pourraient être déployés ensuite par des gouvernements étrangers contre eux-mêmes.

Quelle définition donneriez-vous pour décrire la notion de travail invisible derrière l’IA ?

Anto­nio Casilli. Tout d’abord une pré­ci­sion impor­tante : ce tra­vail n’est pas « invi­sible ». Pour peu que l’on étu­die ce phé­no­mène comme je le fais, en allant à la ren­contre des tra­vailleurs dans des pays comme Mada­gas­car, le Kenya ou le Bré­sil, on découvre alors que leur tra­vail est caché mais pas invi­sible. Donc la défi­ni­tion que je peux en don­ner est celle d’un tra­vail de pré­pa­ra­tion, de véri­fi­ca­tion et par­fois d’imitation des intel­li­gences arti­fi­cielles. C’est-à-dire toute la par­tie qui concerne l’entraînement, le contrôle qua­li­té et l’alignement des modèles.

Ce tra­vail est vivant et abso­lu­ment néces­saire pour faire exis­ter les modèles d’intelligences arti­fi­cielles actuels, puisqu’ils sont lar­ge­ment basés sur des sys­tèmes d’apprentissage auto­ma­tique. Et qui dit « appren­tis­sage », dit que des per­sonnes doivent ensei­gner à la machine. Et mal­gré ce que l’on peut croire, ces ensei­gne­ments ne sont pas seule­ment pro­di­gués par des experts payés des cen­taines de mil­liers d’euros par an. Ce sont aus­si et sur­tout des per­sonnes très fai­ble­ment rému­né­rées et dans des situa­tions assez pré­caires qui font fonc­tion­ner les machines.
Ces tra­vailleurs cachés sont là depuis une ving­taine d’années, depuis que l’on fait de l’intelligence arti­fi­cielle à base de don­nées et à base d’apprentissage automatique.

Avez-vous repéré des changements ou des évolutions ces dernières années, et depuis l’avènement de l’ère ChatGPT ?

Depuis le début de nos enquêtes empi­riques en 2016 – avec mon équipe au sein du DiPLab – nous avons effec­ti­ve­ment pu obser­ver des chan­ge­ments. Et je peux vous par­ta­ger le constat que ces chan­ge­ments ne sont pas là où on aurait pu les attendre. Ils auraient davan­tage été atten­dus sur le volet de la com­plexi­té des tâches, puisque l’on a affaire à des modèles qui ont des per­for­mances ain­si que des tailles de plus en plus impor­tantes. En effet, lorsque l’on doit gérer jusqu’à un tril­lion de para­mètres, on s’imagine que le modèle est d’une com­plexi­té telle que les per­sonnes qui sont mises au tra­vail pour l’entraîner et le véri­fier doivent être elles aus­si de grands spé­cia­listes. Non pas de simples « ouvriers de la don­née », mais de véri­tables « AI tutors ». Ce sont des pro­fils très affi­chés dans des pla­te­formes comme Lin­ke­dIn. Mais ceci n’est pas le cas en réalité.

Actuel­le­ment, dans la phase post-ChatGPT (c’est-à-dire post-2022), quelques spé­cia­listes ont certes été recru­tés, mais ils sont très mino­ri­taires. Leur visi­bi­li­té n’est en réa­li­té qu’une stra­té­gie de com­mu­ni­ca­tion des géants de la tech, des pro­duc­teurs d’intelligence arti­fi­cielle et à des­ti­na­tion de leurs inves­tis­seurs. La majo­ri­té de cette force de tra­vail est encore consti­tuée des per­sonnes que nous ren­con­trons dans nos enquêtes, qui sont fai­ble­ment rému­né­rées et qui effec­tuent un tra­vail frag­men­té. Ce que l’on appelle par­fois « tâcheronisé ».

Ils sont nom­breux à souf­frir d’importants troubles de stress post-trau­ma­tique et nous le consta­tons assez sys­té­ma­ti­que­ment. Cer­taines per­sonnes peuvent même être brisées.

Depuis 2019–2020, nous avons pu obser­ver que ces tra­vailleurs sont de plus en plus jeunes. Au niveau inter­na­tio­nal, même en Europe, ces per­sonnes ont désor­mais entre 18 et 35 ans, même si des pro­fils peuvent aller jusqu’à 44 ans, voire jusqu’à la retraite. La majo­ri­té de ces tra­vailleurs sont des jeunes per­sonnes. Ils ont un niveau d’éducation déme­su­ré­ment éle­vé, au regard des tâches et de leurs rému­né­ra­tions ou du type de travail.

Donc, ce sont des per­sonnes qui sont sur­qua­li­fiées et sur­di­plô­mées par rap­port au tra­vail qu’elles font. Le mar­ché de l’IA en cela est un mar­ché du tra­vail qui ne fonc­tionne pas, parce qu’il n’est pas en train d’allouer de manière effi­cace les meilleurs tra­vailleurs, les plus jeunes ou les plus diplô­més, aux métiers qui payent davan­tage. D’ailleurs, ces ouvriers de la data ne se voient même pas offrir des postes fixes. Cette main d’œuvre, recru­tée sur les pla­te­formes, est payée à la tâche, sans un véri­table contrat de tra­vail. Très sou­vent, il s’agit de simples condi­tions géné­rales d’usage, qu’il faut accep­ter en ligne et qui ne garan­tissent pas les droits des tra­vailleurs. Si ces der­niers ont un contrat, ceci est à durée déter­mi­née d’un à trois mois. D’ailleurs, ils résident sou­vent dans des pays où les tutelles des tra­vailleurs sont tel­le­ment faibles que ce contrat reste un vœu pieux.

Dans votre travail vous abordez aussi les nombreux risques psychosociaux auxquels sont exposés les data workers, pouvez-vous nous en parler ?

Les data wor­kers sont, en effet, une popu­la­tion très expo­sée aux risques psy­cho­so­ciaux. Une part impor­tante d’entre eux sont concer­nés par des situa­tions d’isolement, en tra­vaillant chez eux, par exemple. D’autres tra­vaillent dans des contextes très contrai­gnants, qui les vul­né­ra­bi­lisent. Pour vous don­ner un exemple, les modé­ra­teurs de conte­nus et de chat­bot, qui sont eux aus­si des ouvriers de la don­née, tra­vaillent dans des bureaux sécu­ri­sés, où ils sont sou­mis à une sur­veillance très forte, mais sans pou­voir com­mu­ni­quer entre eux. Il y a donc para­doxa­le­ment une situa­tion de forte contrainte et de fort iso­le­ment, en même temps.

Ils sont nom­breux à souf­frir d’importants troubles de stress post-trau­ma­tique et nous le consta­tons assez sys­té­ma­ti­que­ment. Cer­taines per­sonnes peuvent même être bri­sées. J’ai le sou­ve­nir d’avoir pris le métro dans une ville euro­péenne avec une per­sonne – un ancien modé­ra­teur – qui avait pas­sé des mois à regar­der des vidéos d’individus qui se jetaient sous des trains. Cette per­sonne était com­plè­te­ment trau­ma­ti­sée au point de devoir se tenir très éloi­gnée de la bor­dure des quais, de fuir les rames, sans pou­voir se contrô­ler, ni sup­por­ter la proxi­mi­té avec le métro.

Avez-vous constaté, néanmoins, l’émergence de contre-pouvoirs ou contre-tendances, parmi ces travailleurs ? Et si oui, lesquels ?

Oui, il y a bien des contre-ten­dances. Elles ne datent pas d’hier et ne sont pas spon­ta­nées, dans le sens où ce n’est pas le sys­tème qui s’auto-corrige ou se sta­bi­lise seul. Ces contre-ten­dances sont liées à des conflits sociaux, des conten­tieux, des luttes syn­di­cales dans cer­tains sec­teurs d’activités, et au fait que cer­tains arrivent à atti­rer l’intérêt de l’opinion publique et des déci­deurs. C’est le cas des modé­ra­teurs de conte­nu, dont la cause est désor­mais lar­ge­ment connue.

Je peux vous don­ner un exemple concret au Kenya, où nos col­lègues et des syn­di­ca­listes avec les­quels nous tra­vaillons sur place sont extrê­me­ment orga­ni­sés, notam­ment parce que le Kenya est un pays dans lequel il y a une forte tra­di­tion syn­di­cale et une consti­tu­tion rela­ti­ve­ment pro­gres­siste. Il y a un mou­ve­ment et une socié­té civile très déve­lop­pée. Et bien que ces indi­vi­dus soient par­fois eux-mêmes des migrants venant d’autres pays – je pense à la Soma­lie, au Nige­ria, à l’Éthiopie, ou à l’Afrique du Sud – ils sont insé­rés dans des réseaux plus vastes, et ces réseaux créent un foi­son­ne­ment de syn­di­cats, d’associations et d’autres alliances. Le nom peut chan­ger, le label peut chan­ger, mais il y a énor­mé­ment d’initiatives de ce type-là actuellement.

En Europe, d’autres mou­ve­ments se struc­turent éga­le­ment. Je pense par exemple à l’Allemagne, où un syn­di­cat fémi­niste appe­lé Super­rr agit pour mobi­li­ser l’opinion et les déci­deurs. Aux États-Unis, aus­si, des mou­ve­ments « cross col­lar » (c’est à dire syn­di­cat inter­ca­té­go­riel réunis­sant cols blancs et cols bleus, comme le Alpha­bet Wor­kers Union) s’organisent, même si les indus­triels y sont très puissants.

Concernant la militarisation des usages numériques et de l’IA appliquée, qu’avez-vous pu constater ?

Tout d’abord, le champ d’action de l’IA est énorme, car cette tech­no­lo­gie est une tech­no­lo­gie duale : elle a un usage civil et un usage mili­taire, qui peut être simul­ta­né évi­dem­ment. Cela fait d’ailleurs par­tie des règles du jeu, puisque la struc­ture des finan­ce­ments et les formes de sou­tien à la recherche intègrent depuis le début le champ mili­taire. Jusque dans la sphère réga­lienne, puisque l’on est dans des ques­tions de sou­ve­rai­ne­té, au sens stric­te­ment natio­na­liste du terme. Il est ques­tion de l’indépendance et de la rési­lience d’un pays, d’avoir sa propre infra­struc­ture, mais aus­si de pro­je­ter une image et une idéo­lo­gie agres­sive et, hélas, belliciste.

Aujourd’hui, la situa­tion s’est lar­ge­ment com­plexi­fiée, sur­tout avec la super­po­si­tion et l’intersection entre le tra­vail d’entraînement de l’intelligence arti­fi­cielle et l’orientation mili­taire. Cer­tains ouvriers de la don­née se retrouvent ain­si à tra­vailler dans leur pays sur des outils qui pour­raient être déployés ensuite par des gou­ver­ne­ments étran­gers contre eux-mêmes. Des cas très concrets ont été recen­sés en Syrie, en Pales­tine, ou encore dans plu­sieurs pays d’Afrique.

Nous avons éga­le­ment pu consta­ter une sorte de conti­nuum entre des ini­tia­tives huma­ni­taires et des impli­ca­tions mili­taires dans des théâtres de guerre actifs. Les acti­vi­tés des grands acteurs de l’IA ont été recen­sées sur de nom­breux théâtres d’opération, via des appli­ca­tions de recon­nais­sance faciale, par exemple. En Ukraine, de nom­breux géants de l’intelligence arti­fi­cielle ont été dési­gnés comme des four­nis­seurs d’outils et de datas. Je parle ici de Google ou de Palan­tir Tech­no­lo­gies, Clear­view AI, Micro­soft, Spa­ceX, d’Anthropic ou d’OpenAI. Les acti­vi­tés de ces indus­triels sont troubles, en ce qu’elles mélangent des acti­vi­tés de pro­duc­tion de l’intelligence arti­fi­cielle à forte inten­si­té de tra­vail, dont les usages effec­tifs glissent vers des appli­ca­tions concrètes à des fins de guerre.

Per­son­nel­le­ment, en tant qu’objecteur de conscience, je m’insurge contre cette situa­tion. En tant qu’universitaire aus­si, d’autant que cela rend notre tra­vail encore plus dif­fi­cile. Parce que dans un contexte géo­po­li­tique carac­té­ri­sé par des ten­sions, non seule­ment avec des adver­saires, mais aus­si avec des alliés his­to­riques, la situa­tion devient par­ti­cu­liè­re­ment com­pli­quée pour nous, les chercheurs.

Dans ce contexte, effec­tuer la base de notre tra­vail devient com­plexe. Le simple fait d’arriver à docu­men­ter de manière cor­recte le type d’ingérence mili­taire et les usages détour­nés par des acteurs poli­tiques et éco­no­miques dont les inté­rêts convergent avec les conflits armés, devient sen­sible, voire dangereux.

Propos recueillis par Marie Varasson

Le monde expliqué par la science. Une fois par semaine, dans votre boîte mail.

Recevoir la newsletter