π Numérique

IA : le travail caché mais bien réel des ouvriers de la donnée

Antonio Casilli

sociologue, professeur à Télécom Paris (IP Paris), et chercheur associé au Minderoo Centre for Democracy and Technology, Université de Cambridge

En bref

L’apprentissage des IA repose sur des humains, pas seulement des experts, mais aussi beaucoup de travailleurs sous-payés et précaires qui les font fonctionner au quotidien.
Ces travailleurs sont de plus en plus jeunes, surtout entre 18 et 35 ans (parfois jusqu’à 44 ans ou plus) qui sont surqualifiées et surdiplômées par rapport au travail qu’ils font.
Les data workers sont fortement exposés aux risques psychosociaux : beaucoup travaillent isolés chez eux, d’autres dans des conditions très contraignantes et vulnérabilisantes.
Certains ouvriers de la donnée se retrouvent à travailler dans leur pays sur des outils qui pourraient être déployés ensuite par des gouvernements étrangers contre eux-mêmes.

Quelle définition donneriez-vous pour décrire la notion de travail invisible derrière l’IA ?

Antonio Casilli. Tout d’abord une précision importante : ce travail n’est pas « invisible ». Pour peu que l’on étudie ce phénomène comme je le fais, en allant à la rencontre des travailleurs dans des pays comme Madagascar, le Kenya ou le Brésil, on découvre alors que leur travail est caché mais pas invisible. Donc la définition que je peux en donner est celle d’un travail de préparation, de vérification et parfois d’imitation des intelligences artificielles. C’est-à-dire toute la partie qui concerne l’entraînement, le contrôle qualité et l’alignement des modèles.

Ce travail est vivant et absolument nécessaire pour faire exister les modèles d’intelligences artificielles actuels, puisqu’ils sont largement basés sur des systèmes d’apprentissage automatique. Et qui dit « apprentissage », dit que des personnes doivent enseigner à la machine. Et malgré ce que l’on peut croire, ces enseignements ne sont pas seulement prodigués par des experts payés des centaines de milliers d’euros par an. Ce sont aussi et surtout des personnes très faiblement rémunérées et dans des situations assez précaires qui font fonctionner les machines.
Ces travailleurs cachés sont là depuis une vingtaine d’années, depuis que l’on fait de l’intelligence artificielle à base de données et à base d’apprentissage automatique.

Avez-vous repéré des changements ou des évolutions ces dernières années, et depuis l’avènement de l’ère ChatGPT ?

Depuis le début de nos enquêtes empiriques en 2016 – avec mon équipe au sein du DiPLab – nous avons effectivement pu observer des changements. Et je peux vous partager le constat que ces changements ne sont pas là où on aurait pu les attendre. Ils auraient davantage été attendus sur le volet de la complexité des tâches, puisque l’on a affaire à des modèles qui ont des performances ainsi que des tailles de plus en plus importantes. En effet, lorsque l’on doit gérer jusqu’à un trillion de paramètres, on s’imagine que le modèle est d’une complexité telle que les personnes qui sont mises au travail pour l’entraîner et le vérifier doivent être elles aussi de grands spécialistes. Non pas de simples « ouvriers de la donnée », mais de véritables « AI tutors ». Ce sont des profils très affichés dans des plateformes comme LinkedIn. Mais ceci n’est pas le cas en réalité.

Actuellement, dans la phase post-ChatGPT (c’est-à-dire post-2022), quelques spécialistes ont certes été recrutés, mais ils sont très minoritaires. Leur visibilité n’est en réalité qu’une stratégie de communication des géants de la tech, des producteurs d’intelligence artificielle et à destination de leurs investisseurs. La majorité de cette force de travail est encore constituée des personnes que nous rencontrons dans nos enquêtes, qui sont faiblement rémunérées et qui effectuent un travail fragmenté. Ce que l’on appelle parfois « tâcheronisé ».

Ils sont nombreux à souffrir d’importants troubles de stress post-traumatique et nous le constatons assez systématiquement. Certaines personnes peuvent même être brisées.

Depuis 2019–2020, nous avons pu observer que ces travailleurs sont de plus en plus jeunes. Au niveau international, même en Europe, ces personnes ont désormais entre 18 et 35 ans, même si des profils peuvent aller jusqu’à 44 ans, voire jusqu’à la retraite. La majorité de ces travailleurs sont des jeunes personnes. Ils ont un niveau d’éducation démesurément élevé, au regard des tâches et de leurs rémunérations ou du type de travail.

Donc, ce sont des personnes qui sont surqualifiées et surdiplômées par rapport au travail qu’elles font. Le marché de l’IA en cela est un marché du travail qui ne fonctionne pas, parce qu’il n’est pas en train d’allouer de manière efficace les meilleurs travailleurs, les plus jeunes ou les plus diplômés, aux métiers qui payent davantage. D’ailleurs, ces ouvriers de la data ne se voient même pas offrir des postes fixes. Cette main d’œuvre, recrutée sur les plateformes, est payée à la tâche, sans un véritable contrat de travail. Très souvent, il s’agit de simples conditions générales d’usage, qu’il faut accepter en ligne et qui ne garantissent pas les droits des travailleurs. Si ces derniers ont un contrat, ceci est à durée déterminée d’un à trois mois. D’ailleurs, ils résident souvent dans des pays où les tutelles des travailleurs sont tellement faibles que ce contrat reste un vœu pieux.

Dans votre travail vous abordez aussi les nombreux risques psychosociaux auxquels sont exposés les data workers, pouvez-vous nous en parler ?

Les data workers sont, en effet, une population très exposée aux risques psychosociaux. Une part importante d’entre eux sont concernés par des situations d’isolement, en travaillant chez eux, par exemple. D’autres travaillent dans des contextes très contraignants, qui les vulnérabilisent. Pour vous donner un exemple, les modérateurs de contenus et de chatbot, qui sont eux aussi des ouvriers de la donnée, travaillent dans des bureaux sécurisés, où ils sont soumis à une surveillance très forte, mais sans pouvoir communiquer entre eux. Il y a donc paradoxalement une situation de forte contrainte et de fort isolement, en même temps.

Ils sont nombreux à souffrir d’importants troubles de stress post-traumatique et nous le constatons assez systématiquement. Certaines personnes peuvent même être brisées. J’ai le souvenir d’avoir pris le métro dans une ville européenne avec une personne – un ancien modérateur – qui avait passé des mois à regarder des vidéos d’individus qui se jetaient sous des trains. Cette personne était complètement traumatisée au point de devoir se tenir très éloignée de la bordure des quais, de fuir les rames, sans pouvoir se contrôler, ni supporter la proximité avec le métro.

Avez-vous constaté, néanmoins, l’émergence de contre-pouvoirs ou contre-tendances, parmi ces travailleurs ? Et si oui, lesquels ?

Oui, il y a bien des contre-tendances. Elles ne datent pas d’hier et ne sont pas spontanées, dans le sens où ce n’est pas le système qui s’auto-corrige ou se stabilise seul. Ces contre-tendances sont liées à des conflits sociaux, des contentieux, des luttes syndicales dans certains secteurs d’activités, et au fait que certains arrivent à attirer l’intérêt de l’opinion publique et des décideurs. C’est le cas des modérateurs de contenu, dont la cause est désormais largement connue.

Je peux vous donner un exemple concret au Kenya, où nos collègues et des syndicalistes avec lesquels nous travaillons sur place sont extrêmement organisés, notamment parce que le Kenya est un pays dans lequel il y a une forte tradition syndicale et une constitution relativement progressiste. Il y a un mouvement et une société civile très développée. Et bien que ces individus soient parfois eux-mêmes des migrants venant d’autres pays – je pense à la Somalie, au Nigeria, à l’Éthiopie, ou à l’Afrique du Sud – ils sont insérés dans des réseaux plus vastes, et ces réseaux créent un foisonnement de syndicats, d’associations et d’autres alliances. Le nom peut changer, le label peut changer, mais il y a énormément d’initiatives de ce type-là actuellement.

En Europe, d’autres mouvements se structurent également. Je pense par exemple à l’Allemagne, où un syndicat féministe appelé Superrr agit pour mobiliser l’opinion et les décideurs. Aux États-Unis, aussi, des mouvements « cross collar » (c’est à dire syndicat intercatégoriel réunissant cols blancs et cols bleus, comme le Alphabet Workers Union) s’organisent, même si les industriels y sont très puissants.

Concernant la militarisation des usages numériques et de l’IA appliquée, qu’avez-vous pu constater ?

Tout d’abord, le champ d’action de l’IA est énorme, car cette technologie est une technologie duale : elle a un usage civil et un usage militaire, qui peut être simultané évidemment. Cela fait d’ailleurs partie des règles du jeu, puisque la structure des financements et les formes de soutien à la recherche intègrent depuis le début le champ militaire. Jusque dans la sphère régalienne, puisque l’on est dans des questions de souveraineté, au sens strictement nationaliste du terme. Il est question de l’indépendance et de la résilience d’un pays, d’avoir sa propre infrastructure, mais aussi de projeter une image et une idéologie agressive et, hélas, belliciste.

Aujourd’hui, la situation s’est largement complexifiée, surtout avec la superposition et l’intersection entre le travail d’entraînement de l’intelligence artificielle et l’orientation militaire. Certains ouvriers de la donnée se retrouvent ainsi à travailler dans leur pays sur des outils qui pourraient être déployés ensuite par des gouvernements étrangers contre eux-mêmes. Des cas très concrets ont été recensés en Syrie, en Palestine, ou encore dans plusieurs pays d’Afrique.

Nous avons également pu constater une sorte de continuum entre des initiatives humanitaires et des implications militaires dans des théâtres de guerre actifs. Les activités des grands acteurs de l’IA ont été recensées sur de nombreux théâtres d’opération, via des applications de reconnaissance faciale, par exemple. En Ukraine, de nombreux géants de l’intelligence artificielle ont été désignés comme des fournisseurs d’outils et de datas. Je parle ici de Google ou de Palantir Technologies, Clearview AI, Microsoft, SpaceX, d’Anthropic ou d’OpenAI. Les activités de ces industriels sont troubles, en ce qu’elles mélangent des activités de production de l’intelligence artificielle à forte intensité de travail, dont les usages effectifs glissent vers des applications concrètes à des fins de guerre.

Personnellement, en tant qu’objecteur de conscience, je m’insurge contre cette situation. En tant qu’universitaire aussi, d’autant que cela rend notre travail encore plus difficile. Parce que dans un contexte géopolitique caractérisé par des tensions, non seulement avec des adversaires, mais aussi avec des alliés historiques, la situation devient particulièrement compliquée pour nous, les chercheurs.

Dans ce contexte, effectuer la base de notre travail devient complexe. Le simple fait d’arriver à documenter de manière correcte le type d’ingérence militaire et les usages détournés par des acteurs politiques et économiques dont les intérêts convergent avec les conflits armés, devient sensible, voire dangereux.

IA : le travail caché mais bien réel des ouvriers de la donnée

Quelle définition donneriez-vous pour décrire la notion de travail invisible derrière l’IA ?

Avez-vous repéré des changements ou des évolutions ces dernières années, et depuis l’avènement de l’ère ChatGPT ?

Dans votre travail vous abordez aussi les nombreux risques psychosociaux auxquels sont exposés les data workers, pouvez-vous nous en parler ?

Avez-vous constaté, néanmoins, l’émergence de contre-pouvoirs ou contre-tendances, parmi ces travailleurs ? Et si oui, lesquels ?

Concernant la militarisation des usages numériques et de l’IA appliquée, qu’avez-vous pu constater ?

Propos recueillis par Marie Varasson

Pour aller plus loin

Atouts et contraintes de l’euro numérique de la Banque centrale

IA : comment intégrer et évaluer l’éthique, la souveraineté et l’éco-responsabilité ?

« Un parapluie numérique collectif » pour garantir une souveraineté digitale à l’ère de la guerre hybride

Trois menaces contre les monnaies numériques

Après le cloud, le “fog” est-il l’avenir des bases de données ?

Notre sélection de dossiers

Cybersécurité, IA, finance : les applications des technologies quantique se précisent

Face aux cybermenaces : stratégies publiques et industrielles

Jeux-vidéo, esports et IA : anatomie des marchés numériques