π Numérique π Société π Science et technologies

Comment les IA libres pourraient moderniser les services publics

Christophe Gaie

directeur adjoint du pôle Opérations numériques à l'AP-HP

Laurent Denis

architecte technique au sein des services du Premier ministre

En bref

L’IA et les LLM constituent une opportunité majeure pour transformer l’action publique, notamment en améliorant la qualité et l’efficacité des services.
L’IA libre apparaît à ce titre comme une option intéressante pour moderniser les services publics numériques, avec des risques restant à évaluer.
L’IA libre présente de nombreux avantages, notamment un niveau de transparence complet sur le code source, la réduction des coûts ainsi que l’indépendance des administrations aux éditeurs.
Les modèles d’IA fermés présentent également des avantages, comme une moindre sujétion à certaines manipulations du paramétrage ou un meilleur contrôle du fonctionnement de l’IA.
Il est essentiel d’étudier en profondeur les enjeux éthiques liés à l’utilisation de l’IA dans le secteur public, notamment pour se prémunir de certains biais.

L’intelligence artificielle (IA), et plus spécifiquement les grands modèles de langage (Large Language Models), constituent une opportunité majeure pour transformer l’action publique. L’IA peut en effet être utilisée dans de nombreux domaines pour améliorer l’efficacité, la qualité des services rendus aux citoyens et la prise de décision.

Toutefois, l’implémentation de l’IA au sein des services publics présente des enjeux majeurs. D’abord, la solution retenue doit garantir l’équité de traitement, la transparence des décisions et des actions sur un dossier, ou encore, assurer le respect des droits fondamentaux tout au long de son utilisation. De plus, la protection rigoureuse des données personnelles, souvent sensibles dans le cadre des services publics, est un enjeu de sécurité conséquent. Enfin, l’explicabilité des décisions constitue un facteur majeur dans la confiance envers les solutions utilisées et leur acceptabilité par les citoyens. Ainsi, l’utilisation d’une solution offrant un fort niveau de transparence constitue un atout dans la mise en place et l’acceptation des solutions d’intelligence artificielle. Mais au regard de la complexité du sujet, la mise en avant des critères permettant d’assurer le niveau de transparence attendu est loin d’être triviale à définir.

La définition d’une IA libre est un sujet encore soumis à débat

Les grands modèles de langage s’appuient sur des réseaux de neurones entraînés sur une très grande quantité de données. À partir d’une séquence de mots, ils déterminent de manière statistique le mot répondant le mieux à la séquence donnée. En appliquant ce principe de manière récursive, les LLM sont à même de produire des textes structurés, donnant l’impression que la machine analyse et comprend la question posée.

Le texte produit va donc dépendre :

des algorithmes utilisés, qui vont permettre au modèle de peser l’importance de chaque mot dans une phrase par rapport aux autres. Cette capacité est notamment donnée à travers des architectures de type « transformers¹ ».
du poids affecté aux différents neurones, qui vont permettre d’activer le réseau afin de produire la donnée en sortie ;
du corpus d’apprentissage, qui a une incidence directe sur la détermination des poids utilisés par le modèle.

Les 4 principes (utiliser, étudier, modifier, partager) associés aux logiciels libres² doivent donc se décliner sur l’ensemble de ces éléments³ . Le sujet est encore soumis à débat et engendre ainsi de nombreuses confusions⁴. Ainsi, certaines IA se prétendant libres comportent des restrictions d’utilisation allant à l’encontre des principes définis⁵. Après un long processus, l’Open source initiative (OSI), qui réunit des chercheurs, des juristes, des décideurs politiques, des militants et des représentants de grandes entreprises technologiques, propose une définition qui met en corrélation les 4 libertés associées aux logiciels libres et les éléments sur lesquels s’adossent les LLM.

Selon l’Open source initiative, un système d’apprentissage automatique libre doit inclure les éléments suivants⁶ :

des informations suffisamment détaillées sur les données utilisées pour entraîner le système, permettant à une personne compétente de construire un système substantiellement équivalent. Ces informations doivent être disponibles sous des termes approuvés par l’OSI ;
le code source de l’IA, y compris le code d’inférence pour exécuter le modèle ;
l’ensemble des paramètres appris qui se superposent à l’architecture du modèle pour produire une sortie à partir d’une entrée donnée.

La publication du corpus d’apprentissage n’est donc pas obligatoire, mais un descriptif détaillé de ce dernier doit obligatoirement être présent. Force est de constater que de nombreux modèles offrant de très bonnes performances et se qualifiant de libres ne respectent pas ce dernier point. On parlera alors de modèles à poids ouverts. Un comparateur des modèles d’IA est d’ailleurs mis à disposition par le Pôle d’Expertise de la Régulation Numérique (PEReN).

Quels sont les risques et avantages associés aux différentes typologies de licences ?

Le code source est lisible par l’homme et donne un accès aux algorithmes utilisés. Les poids sont le résultat de l’entraînement et représentent les connaissances du modèle. Dans le cas de modèles à poids ouvert, ces connaissances peuvent faire l’objet d’une personnalisation à travers une processus de fine-tuning⁷.

Toutefois, cela ne permet pas une transparence totale comme la détection de biais ou des attaques de type « empoisonnement » qui consistent à altérer les connaissances d’un modèle, sans que ces modifications soient facilement détectables par les tests standards⁸ ⁹. Seul un modèle libre donnant accès à son corpus d’apprentissage garantit un niveau de transparence total, notamment en permettant une maîtrise complète de son entraînement. Cependant, cette démarche de reconstruction à partir des sources nécessite encore des moyens de calculs importants que peu d’entités sont en mesure d’acquérir.

Le 30 octobre 2023, le président Biden a publié un décret intitulé Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence, visant à évaluer les risques et les avantages des modèles de fondation pour lesquels les poids sont disponibles. Le rapport issu de cette étude¹⁰ reconnaît les avantages de l’accès ouvert aux poids des modèles, tels que l’innovation et la recherche, mais souligne également les risques potentiels, notamment la possibilité d’utilisation malveillante, la suppression des mécanismes de sécurité et l’impact sur la concurrence. Le rapport conclut que les données actuelles ne sont pas suffisantes pour déterminer de manière définitive si des restrictions sur les modèles à poids ouverts sont justifiées et recommande une surveillance active de ces modèles.

Les modèles fermés, même s’ils ne bénéficient pas du même niveau de transparence et d’inadaptabilité que leurs homologues libres ou à poids ouverts, ne sont pour autant pas dénués d’avantages. Ils sont moins sujets aux risques de manipulations évoqués ci-dessus car leurs poids ne sont pas modifiables par un tiers, les risques sur la propriété intellectuelle des données d’entraînement sont portés par le fournisseur du modèle, l’éditeur peut rapidement agir sur son modèle afin de réagir en cas d’abus, contribuant ainsi à atténuer les risques potentiels liés à l’IA, tels que la diffusion de contenus inappropriés¹¹. Toutefois, tout cela se fait au détriment de l’autonomie que l’on peut avoir sur le modèle d’IA.

Faut-il privilégier les IA sous licence libre ?

L’utilisation d’IA libres au sens de l’OSI présente de nombreux avantages. Tout d’abord, la transparence de leur fonctionnement est garantie puisqu’il est directement possible d’accéder et de modifier leur code source et d’inspecter les données d’entraînement. Cette possibilité est une garantie fondamentale puisque chaque modèle utilisé peut faire l’objet d’une vérification approfondie afin de garantir que le processus de décision est conforme au droit en vigueur et ne présente pas de biais de discrimination, par exemple. Par contre, lorsque l’IA est utilisée dans le cadre d’une « Génération augmentée par la recherche » (Retrieval-augmented generation ou RAG¹²), le niveau de transparence qui doit être exigé peut être moindre car les données utilisées pour formuler les réponses sont fournies par l’intermédiaire d’un algorithme sur lequel il est plus facile d’avoir le niveau de maîtrise attendu. Le corpus de réponses étant donné par des algorithmes de recherches classiques, il est alors relativement facile de fournir à l’usager final, en plus de la réponse attendue, les données brutes et leur niveau de confiance. Toutefois, cela suppose un regard critique de la part de l’utilisateur final.

Même si les missions de l’État sont par essence relativement spécifiques, on constate que de nombreux cas d’utilisations se rapprochent de ce qui peut être fait dans des sociétés privées, à savoir apporter une réponse à une question en exploitant un corpus documentaire à l’aide d’algorithmes de recherches classiques ou vectorielles qui s’appuient sur la notion de similarité¹³. Il n’est donc pas aberrant de constater une convergence sur les modèles utilisés dans les deux mondes. Pour l’État, le critère discriminant dans le choix des modèles sera donc en lien avec la préservation des informations personnelles ou des informations sensibles transmises aux modèles d’IA.

L’utilisation de solutions libres permet de réduire drastiquement les dépenses

Au-delà des aspects évoqués ci-dessus, l’utilisation de solutions open-sources permet aussi à l’État de diffuser ses travaux afin que ces derniers puissent être réutilisés par le secteur public ou privé. Ainsi, la DGFiP a publié des travaux sur un modèle permettant de synthétiser les amendements parlementaires¹⁴ ¹⁵. Ils sont ainsi en capacité de partager activement leurs connaissances dans les limites de la confidentialité nécessaires aux missions régaliennes.

Enfin, l’utilisation de solutions libres permet de réduire drastiquement les dépenses, en les limitant au support technique sans coût de licence.

Existe-il des difficultés à mettre en place des IA sous licence libre ?

L’utilisation d’IA sous licence libre présente également différents défis à relever. En premier lieu, la mise en place de solutions libres requiert de bien maîtriser le fonctionnement des modèles sous-jacents. À cette complexité, s’ajoute par ailleurs la nécessité de disposer des compétences techniques qui permettent d’adapter les modèles aux besoins métiers, de disposer des données nécessaires à l’apprentissage, de paramétrer le modèle (fine-tuning), si l’application métier le nécessite, de le déployer dans le SI de l’administration et d’en garantir la plus haute sécurité.

De plus, leur maintenance évolutive et corrective nécessite un investissement en temps non négligeable, tant pour mettre à jour les modèles ou assurer un niveau de non-régression satisfaisant que pour assurer leur bon fonctionnement. Bien que le code soit libre, l’exploitation de ces IA requiert souvent aussi des infrastructures informatiques s’appuyant sur des unités de calculs spécialisées, ce qui peut représenter un coût indirect. Enfin, la qualité des modèles libres peut varier considérablement notamment selon les cas métiers que l’on souhaite traiter, et il n’existe pas de garanties absolues quant à leurs performances. Il est donc essentiel de définir précisément les attendus avec les équipes métiers et de procéder à une vérification des résultats attendus avant la mise en service de toute version.

Conclusion

L’intégration de l’intelligence artificielle au sein des services publics représente une opportunité unique d’améliorer l’efficacité, la qualité des services rendus aux citoyens et la prise de décision dans un contexte de tension sur les ressources humaines disponibles. Les modèles de langage libres semblent être des outils particulièrement adaptés à cet enjeu.

En dépit des défis, les avantages des IA libres sont nombreux. Ils favorisent l’innovation, réduisent les coûts et renforcent l’autonomie des administrations.

Pour autant, il est indispensable d’étudier en profondeur les enjeux éthiques liés à l’utilisation de l’IA dans le secteur public. En effet, il est nécessaire de mettre en place des processus et méthodes permettant de se prémunir des biais algorithmiques et garantir une utilisation raisonnable des technologies, en garantissant leur contrôle par des experts numériques, juridiques, voire par les citoyens eux-mêmes.

Clause de non-responsabilité : Le contenu de cet article n’engage que ses auteurs et n’a pas de portée autre que celle de l’information et de la recherche académique.

1A. Vaswani et al., « Attention Is All You Need ». 2023. [En ligne]. Disponible sur : https://arxiv.org/abs/1706.03762↑

2« Logiciel libre », Wikipédia. 14 novembre 2024. [En ligne]. Disponible sur : https://fr.wikipedia.org/w/index.php?title=Logiciel_libre&oldid=220293632↑

3B. Doerrfeld, « Be careful with ‘open source’ AI », LeadDev. [En ligne]. Disponible sur : https://leaddev.com/technical-direction/be-careful-open-source-ai↑

4W. Rhiannon, « We finally have a definition for open-source AI », MIT Technology Review. [En ligne]. Disponible sur : https://www.technologyreview.com/2024/08/22/1097224/we-finally-have-a-definition-for-open-source-ai/↑

5N. Lambert, « The koan of an open-source LLM », Interconnects. [En ligne]. Disponible sur : https://www.interconnects.ai/p/an-open-source-llm↑

6« The Open Source AI Definition – 1.0 – Open Source Initiative », Open source initiative. [En ligne]. Disponible sur : https://opensource.org/ai/open-source-ai-definition↑

7Stéphane Le Calme, « L’équilibre délicat entre sécurité et innovation dans l’IA : « bannir les modèles “open weights” serait un désastre ». [En ligne]. Disponible sur : https://intelligence-artificielle.developpez.com/actu/356012/L‑equilibre-delicat-entre-securite-et-innovation-dans-l-IA-bannir-les-modeles-open-weights-serait-un-desastre-selon-un-chercheur-l-administration-Biden-envisage-de-bloquer-l-acces-a-ces-modeles-afin-d-eviter-les-abus/↑

8« PoisonGPT : des LLM détournés à la racine – Data & IA – Silicon.fr ». [En ligne]. Disponible sur : https://www.silicon.fr/Thematique/data-ia-1372/Breves/PoisonGPT-des-LLM-detournes-a-la-racine-402783.htm↑

9« LLM03 : Training Data Poisoning – OWASP Top 10 for LLM & Generative AI Security », OWASP. [En ligne]. Disponible sur : https://genai.owasp.org/llmrisk/llm03-training-data-poisoning/↑

10NTIA Report, « Dual-Use Foundation Models with Widely Available Model Weights », juill. 2024. [En ligne]. Disponible sur : https://www.ntia.gov/sites/default/files/publications/ntia-ai-open-model-report.pdf↑

11I. Solaiman, « Generative AI Systems Aren’t Just Open or Closed Source », Wired. [En ligne]. Disponible sur : https://www.wired.com/story/generative-ai-systems-arent-just-open-or-closed-source/↑

12« What is Retrieval-Augmented Generation (RAG)? | The Complete Guide ». [En ligne]. Disponible sur : https://www.k2view.com/what-is-retrieval-augmented-generation↑