Accueil / Chroniques / Comment les IA libres pourraient moderniser les services publics
Powerful gust of wind symbolized by dynamic, swirling lines enveloping an open laptop that displays lines of open-source code on the screen
Généré par l'IA / Generated using AI
π Numérique π Société π Science et technologies

Comment les IA libres pourraient moderniser les services publics

Christophe Gaie
Christophe Gaie
directeur adjoint du pôle Opérations numériques à l'AP-HP
Laurent Denis
Laurent Denis
architecte technique au sein des services du Premier ministre
En bref
  • L’IA et les LLM constituent une opportunité majeure pour transformer l’action publique, notamment en améliorant la qualité et l’efficacité des services.
  • L’IA libre apparaît à ce titre comme une option intéressante pour moderniser les services publics numériques, avec des risques restant à évaluer.
  • L’IA libre présente de nombreux avantages, notamment un niveau de transparence complet sur le code source, la réduction des coûts ainsi que l’indépendance des administrations aux éditeurs.
  • Les modèles d’IA fermés présentent également des avantages, comme une moindre sujétion à certaines manipulations du paramétrage ou un meilleur contrôle du fonctionnement de l’IA.
  • Il est essentiel d’étudier en profondeur les enjeux éthiques liés à l’utilisation de l’IA dans le secteur public, notamment pour se prémunir de certains biais.

L’in­tel­li­gence arti­fi­cielle (IA), et plus spé­ci­fi­que­ment les grands modèles de lan­gage (Large Lan­guage Models), consti­tuent une oppor­tu­ni­té majeure pour trans­for­mer l’ac­tion publique. L’IA peut en effet être uti­li­sée dans de nom­breux domaines pour amé­lio­rer l’ef­fi­ca­ci­té, la qua­li­té des ser­vices ren­dus aux citoyens et la prise de décision.

Tou­te­fois, l’implémentation de l’IA au sein des ser­vices publics pré­sente des enjeux majeurs. D’abord, la solu­tion rete­nue doit garan­tir l’é­qui­té de trai­te­ment, la trans­pa­rence des déci­sions et des actions sur un dos­sier, ou encore, assu­rer le res­pect des droits fon­da­men­taux tout au long de son uti­li­sa­tion. De plus, la pro­tec­tion rigou­reuse des don­nées per­son­nelles, sou­vent sen­sibles dans le cadre des ser­vices publics, est un enjeu de sécu­ri­té consé­quent. Enfin, l’explicabilité des déci­sions consti­tue un fac­teur majeur dans la confiance envers les solu­tions uti­li­sées et leur accep­ta­bi­li­té par les citoyens. Ain­si, l’utilisation d’une solu­tion offrant un fort niveau de trans­pa­rence consti­tue un atout dans la mise en place et l’acceptation des solu­tions d’intelligence arti­fi­cielle. Mais au regard de la com­plexi­té du sujet, la mise en avant des cri­tères per­met­tant d’assurer le niveau de trans­pa­rence atten­du est loin d’être tri­viale à définir.

La définition d’une IA libre est un sujet encore soumis à débat

Les grands modèles de lan­gage s’appuient sur des réseaux de neu­rones entraî­nés sur une très grande quan­ti­té de don­nées. À par­tir d’une séquence de mots, ils déter­minent de manière sta­tis­tique le mot répon­dant le mieux à la séquence don­née. En appli­quant ce prin­cipe de manière récur­sive, les LLM sont à même de pro­duire des textes struc­tu­rés, don­nant l’impression que la machine ana­lyse et com­prend la ques­tion posée.

Le texte pro­duit va donc dépendre :

  • des algo­rithmes uti­li­sés, qui vont per­mettre au modèle de peser l’importance de chaque mot dans une phrase par rap­port aux autres. Cette capa­ci­té est notam­ment don­née à tra­vers des archi­tec­tures de type « trans­for­mers1 ».
  • du poids affec­té aux dif­fé­rents neu­rones, qui vont per­mettre d’activer le réseau afin de pro­duire la don­née en sortie ;
  • du cor­pus d’apprentissage, qui a une inci­dence directe sur la déter­mi­na­tion des poids uti­li­sés par le modèle.

Les 4 prin­cipes (uti­li­ser, étu­dier, modi­fier, par­ta­ger) asso­ciés aux logi­ciels libres2  doivent donc se décli­ner sur l’ensemble de ces élé­ments3 . Le sujet est encore sou­mis à débat et engendre ain­si de nom­breuses confu­sions4. Ain­si, cer­taines IA se pré­ten­dant libres com­portent des res­tric­tions d’utilisation allant à l’encontre des prin­cipes défi­nis5. Après un long pro­ces­sus, l’Open source ini­tia­tive (OSI), qui réunit des cher­cheurs, des juristes, des déci­deurs poli­tiques, des mili­tants et des repré­sen­tants de grandes entre­prises tech­no­lo­giques, pro­pose une défi­ni­tion qui met en cor­ré­la­tion les 4 liber­tés asso­ciées aux logi­ciels libres et les élé­ments sur les­quels s’adossent les LLM.

Selon l’Open source ini­tia­tive, un sys­tème d’ap­pren­tis­sage auto­ma­tique libre doit inclure les élé­ments sui­vants6 :

  • des infor­ma­tions suf­fi­sam­ment détaillées sur les don­nées uti­li­sées pour entraî­ner le sys­tème, per­met­tant à une per­sonne com­pé­tente de construire un sys­tème sub­stan­tiel­le­ment équi­valent. Ces infor­ma­tions doivent être dis­po­nibles sous des termes approu­vés par l’OSI ;
  • le code source de l’IA, y com­pris le code d’in­fé­rence pour exé­cu­ter le modèle ;
  • l’en­semble des para­mètres appris qui se super­posent à l’ar­chi­tec­ture du modèle pour pro­duire une sor­tie à par­tir d’une entrée donnée.

La publi­ca­tion du cor­pus d’apprentissage n’est donc pas obli­ga­toire, mais un des­crip­tif détaillé de ce der­nier doit obli­ga­toi­re­ment être pré­sent. Force est de consta­ter que de nom­breux modèles offrant de très bonnes per­for­mances et se qua­li­fiant de libres ne res­pectent pas ce der­nier point. On par­le­ra alors de modèles à poids ouverts. Un com­pa­ra­teur des modèles d’IA est d’ailleurs mis à dis­po­si­tion par le Pôle d’Expertise de la Régu­la­tion Numé­rique (PER­eN).

Quels sont les risques et avantages associés aux différentes typologies de licences ?

Le code source est lisible par l’homme et donne un accès aux algo­rithmes uti­li­sés. Les poids sont le résul­tat de l’entraînement et repré­sentent les connais­sances du modèle. Dans le cas de modèles à poids ouvert, ces connais­sances peuvent faire l’objet d’une per­son­na­li­sa­tion à tra­vers une pro­ces­sus de fine-tuning7.

Tou­te­fois, cela ne per­met pas une trans­pa­rence totale comme la détec­tion de biais ou des attaques de type « empoi­son­ne­ment » qui consistent à alté­rer les connais­sances d’un modèle, sans que ces modi­fi­ca­tions soient faci­le­ment détec­tables par les tests stan­dards89. Seul un modèle libre don­nant accès à son cor­pus d’apprentissage garan­tit un niveau de trans­pa­rence total, notam­ment en per­met­tant une maî­trise com­plète de son entraî­ne­ment. Cepen­dant, cette démarche de recons­truc­tion à par­tir des sources néces­site encore des moyens de cal­culs impor­tants que peu d’entités sont en mesure d’acquérir.

Le 30 octobre 2023, le pré­sident Biden a publié un décret inti­tu­lé Safe, Secure, and Trust­wor­thy Deve­lop­ment and Use of Arti­fi­cial Intel­li­gence, visant à éva­luer les risques et les avan­tages des modèles de fon­da­tion pour les­quels les poids sont dis­po­nibles. Le rap­port issu de cette étude10 recon­naît les avan­tages de l’ac­cès ouvert aux poids des modèles, tels que l’in­no­va­tion et la recherche, mais sou­ligne éga­le­ment les risques poten­tiels, notam­ment la pos­si­bi­li­té d’u­ti­li­sa­tion mal­veillante, la sup­pres­sion des méca­nismes de sécu­ri­té et l’im­pact sur la concur­rence. Le rap­port conclut que les don­nées actuelles ne sont pas suf­fi­santes pour déter­mi­ner de manière défi­ni­tive si des res­tric­tions sur les modèles à poids ouverts sont jus­ti­fiées et recom­mande une sur­veillance active de ces modèles.

Les modèles fer­més, même s’ils ne béné­fi­cient pas du même niveau de trans­pa­rence et d’inadaptabilité que leurs homo­logues libres ou à poids ouverts, ne sont pour autant pas dénués d’avantages. Ils sont moins sujets aux risques de mani­pu­la­tions évo­qués ci-des­sus car leurs poids ne sont pas modi­fiables par un tiers, les risques sur la pro­prié­té intel­lec­tuelle des don­nées d’entraînement sont por­tés par le four­nis­seur du modèle, l’éditeur peut rapi­de­ment agir sur son modèle afin de réagir en cas d’abus, contri­buant ain­si à atté­nuer les risques poten­tiels liés à l’IA, tels que la dif­fu­sion de conte­nus inap­pro­priés11. Tou­te­fois, tout cela se fait au détri­ment de l’autonomie que l’on peut avoir sur le modèle d’IA.

Faut-il privilégier les IA sous licence libre ?

L’utilisation d’IA libres au sens de l’OSI pré­sente de nom­breux avan­tages. Tout d’a­bord, la trans­pa­rence de leur fonc­tion­ne­ment est garan­tie puisqu’il est direc­te­ment pos­sible d’accéder et de modi­fier leur code source et d’inspecter les don­nées d’entraînement. Cette pos­si­bi­li­té est une garan­tie fon­da­men­tale puisque chaque modèle uti­li­sé peut faire l’objet d’une véri­fi­ca­tion appro­fon­die afin de garan­tir que le pro­ces­sus de déci­sion est conforme au droit en vigueur et ne pré­sente pas de biais de dis­cri­mi­na­tion, par exemple. Par contre, lorsque l’IA est uti­li­sée dans le cadre d’une « Géné­ra­tion aug­men­tée par la recherche » (Retrie­val-aug­men­ted gene­ra­tion ou RAG12), le niveau de trans­pa­rence qui doit être exi­gé peut être moindre car les don­nées uti­li­sées pour for­mu­ler les réponses sont four­nies par l’intermédiaire d’un algo­rithme sur lequel il est plus facile d’avoir le niveau de maî­trise atten­du. Le cor­pus de réponses étant don­né par des algo­rithmes de recherches clas­siques, il est alors rela­ti­ve­ment facile de four­nir à l’usager final, en plus de la réponse atten­due, les don­nées brutes et leur niveau de confiance. Tou­te­fois, cela sup­pose un regard cri­tique de la part de l’utilisateur final.

Même si les mis­sions de l’État sont par essence rela­ti­ve­ment spé­ci­fiques, on constate que de nom­breux cas d’utilisations se rap­prochent de ce qui peut être fait dans des socié­tés pri­vées, à savoir appor­ter une réponse à une ques­tion en exploi­tant un cor­pus docu­men­taire à l’aide d’algorithmes de recherches clas­siques ou vec­to­rielles qui s’appuient sur la notion de simi­la­ri­té13. Il n’est donc pas aber­rant de consta­ter une conver­gence sur les modèles uti­li­sés dans les deux mondes. Pour l’État, le cri­tère dis­cri­mi­nant dans le choix des modèles sera donc en lien avec la pré­ser­va­tion des infor­ma­tions per­son­nelles ou des infor­ma­tions sen­sibles trans­mises aux modèles d’IA.

L’utilisation de solu­tions libres per­met de réduire dras­ti­que­ment les dépenses

Au-delà des aspects évo­qués ci-des­sus, l’utilisation de solu­tions open-sources per­met aus­si à l’État de dif­fu­ser ses tra­vaux afin que ces der­niers puissent être réuti­li­sés par le sec­teur public ou pri­vé. Ain­si, la DGFiP a publié des tra­vaux sur un modèle per­met­tant de syn­thé­ti­ser les amen­de­ments par­le­men­taires1415. Ils sont ain­si en capa­ci­té de par­ta­ger acti­ve­ment leurs connais­sances dans les limites de la confi­den­tia­li­té néces­saires aux mis­sions régaliennes.

Enfin, l’utilisation de solu­tions libres per­met de réduire dras­ti­que­ment les dépenses, en les limi­tant au sup­port tech­nique sans coût de licence.

Existe-il des difficultés à mettre en place des IA sous licence libre ?

L’u­ti­li­sa­tion d’IA sous licence libre pré­sente éga­le­ment dif­fé­rents défis à rele­ver. En pre­mier lieu, la mise en place de solu­tions libres requiert de bien maî­tri­ser le fonc­tion­ne­ment des modèles sous-jacents. À cette com­plexi­té, s’ajoute par ailleurs la néces­si­té de dis­po­ser des com­pé­tences tech­niques qui per­mettent d’adapter les modèles aux besoins métiers, de dis­po­ser des don­nées néces­saires à l’apprentissage, de para­mé­trer le modèle (fine-tuning), si l’application métier le néces­site, de le déployer dans le SI de l’administration et d’en garan­tir la plus haute sécurité.

De plus, leur main­te­nance évo­lu­tive et cor­rec­tive néces­site un inves­tis­se­ment en temps non négli­geable, tant pour mettre à jour les modèles ou assu­rer un niveau de non-régres­sion satis­fai­sant que pour assu­rer leur bon fonc­tion­ne­ment. Bien que le code soit libre, l’ex­ploi­ta­tion de ces IA requiert sou­vent aus­si des infra­struc­tures infor­ma­tiques s’appuyant sur des uni­tés de cal­culs spé­cia­li­sées, ce qui peut repré­sen­ter un coût indi­rect. Enfin, la qua­li­té des modèles libres peut varier consi­dé­ra­ble­ment notam­ment selon les cas métiers que l’on sou­haite trai­ter, et il n’existe pas de garan­ties abso­lues quant à leurs per­for­mances. Il est donc essen­tiel de défi­nir pré­ci­sé­ment les atten­dus avec les équipes métiers et de pro­cé­der à une véri­fi­ca­tion des résul­tats atten­dus avant la mise en ser­vice de toute version.

Conclusion

L’in­té­gra­tion de l’in­tel­li­gence arti­fi­cielle au sein des ser­vices publics repré­sente une oppor­tu­ni­té unique d’a­mé­lio­rer l’ef­fi­ca­ci­té, la qua­li­té des ser­vices ren­dus aux citoyens et la prise de déci­sion dans un contexte de ten­sion sur les res­sources humaines dis­po­nibles. Les modèles de lan­gage libres semblent être des outils par­ti­cu­liè­re­ment adap­tés à cet enjeu.

En dépit des défis, les avan­tages des IA libres sont nom­breux. Ils favo­risent l’in­no­va­tion, réduisent les coûts et ren­forcent l’au­to­no­mie des administrations.

Pour autant, il est indis­pen­sable d’étudier en pro­fon­deur les enjeux éthiques liés à l’u­ti­li­sa­tion de l’IA dans le sec­teur public. En effet, il est néces­saire de mettre en place des pro­ces­sus et méthodes per­met­tant de se pré­mu­nir des biais algo­rith­miques et garan­tir une uti­li­sa­tion rai­son­nable des tech­no­lo­gies, en garan­tis­sant leur contrôle par des experts numé­riques, juri­diques, voire par les citoyens eux-mêmes.

Clause de non-res­pon­sa­bi­li­té : Le conte­nu de cet article n’engage que ses auteurs et n’a pas de por­tée autre que celle de l’information et de la recherche académique.

1A. Vas­wa­ni et al., « Atten­tion Is All You Need ». 2023. [En ligne]. Dis­po­nible sur : https://​arxiv​.org/​a​b​s​/​1​7​0​6​.​03762
2« Logi­ciel libre », Wiki­pé­dia. 14 novembre 2024. [En ligne]. Dis­po­nible sur : https://​fr​.wiki​pe​dia​.org/​w​/​i​n​d​e​x​.​p​h​p​?​t​i​t​l​e​=​L​o​g​i​c​i​e​l​_​l​i​b​r​e​&​o​l​d​i​d​=​2​2​0​2​93632
3B. Doerr­feld, « Be care­ful with ‘open source’ AI », Lead­Dev. [En ligne]. Dis­po­nible sur : https://​lead​dev​.com/​t​e​c​h​n​i​c​a​l​-​d​i​r​e​c​t​i​o​n​/​b​e​-​c​a​r​e​f​u​l​-​o​p​e​n​-​s​o​u​r​ce-ai
4W. Rhian­non, « We final­ly have a defi­ni­tion for open-source AI », MIT Tech­no­lo­gy Review. [En ligne]. Dis­po­nible sur : https://​www​.tech​no​lo​gy​re​view​.com/​2​0​2​4​/​0​8​/​2​2​/​1​0​9​7​2​2​4​/​w​e​-​f​i​n​a​l​l​y​-​h​a​v​e​-​a​-​d​e​f​i​n​i​t​i​o​n​-​f​o​r​-​o​p​e​n​-​s​o​u​r​c​e-ai/
5N. Lam­bert, « The koan of an open-source LLM », Inter­con­nects. [En ligne]. Dis­po­nible sur : https://​www​.inter​con​nects​.ai/​p​/​a​n​-​o​p​e​n​-​s​o​u​r​c​e-llm
6« The Open Source AI Defi­ni­tion – 1.0 – Open Source Ini­tia­tive », Open source ini­tia­tive.  [En ligne]. Dis­po­nible sur : https://​open​source​.org/​a​i​/​o​p​e​n​-​s​o​u​r​c​e​-​a​i​-​d​e​f​i​n​ition
7Sté­phane Le Calme, « L’équilibre déli­cat entre sécu­ri­té et inno­va­tion dans l’IA : « ban­nir les modèles “open weights” serait un désastre ».  [En ligne]. Dis­po­nible sur : https://intelligence-artificielle.developpez.com/actu/356012/L‑equilibre-delicat-entre-securite-et-innovation-dans-l-IA-bannir-les-modeles-open-weights-serait-un-desastre-selon-un-chercheur-l-administration-Biden-envisage-de-bloquer-l-acces-a-ces-modeles-afin-d-eviter-les-abus/
8« Poi­sonGPT : des LLM détour­nés à la racine – Data & IA – Sili​con​.fr ».  [En ligne]. Dis­po­nible sur : https://​www​.sili​con​.fr/​T​h​e​m​a​t​i​q​u​e​/​d​a​t​a​-​i​a​-​1​3​7​2​/​B​r​e​v​e​s​/​P​o​i​s​o​n​G​P​T​-​d​e​s​-​L​L​M​-​d​e​t​o​u​r​n​e​s​-​a​-​l​a​-​r​a​c​i​n​e​-​4​0​2​7​8​3.htm
9« LLM03 : Trai­ning Data Poi­so­ning – OWASP Top 10 for LLM & Gene­ra­tive AI Secu­ri­ty », OWASP. [En ligne]. Dis­po­nible sur : https://​genai​.owasp​.org/​l​l​m​r​i​s​k​/​l​l​m​0​3​-​t​r​a​i​n​i​n​g​-​d​a​t​a​-​p​o​i​s​o​ning/
10NTIA Report, « Dual-Use Foun­da­tion Models with Wide­ly Avai­lable Model Weights », juill. 2024. [En ligne]. Dis­po­nible sur : https://​www​.ntia​.gov/​s​i​t​e​s​/​d​e​f​a​u​l​t​/​f​i​l​e​s​/​p​u​b​l​i​c​a​t​i​o​n​s​/​n​t​i​a​-​a​i​-​o​p​e​n​-​m​o​d​e​l​-​r​e​p​o​r​t.pdf
11I. Solai­man, « Gene­ra­tive AI Sys­tems Aren’t Just Open or Clo­sed Source », Wired. [En ligne]. Dis­po­nible sur : https://​www​.wired​.com/​s​t​o​r​y​/​g​e​n​e​r​a​t​i​v​e​-​a​i​-​s​y​s​t​e​m​s​-​a​r​e​n​t​-​j​u​s​t​-​o​p​e​n​-​o​r​-​c​l​o​s​e​d​-​s​o​urce/
12« What is Retrie­val-Aug­men­ted Gene­ra­tion (RAG)? | The Com­plete Guide ». [En ligne]. Dis­po­nible sur : https://​www​.k2view​.com/​w​h​a​t​-​i​s​-​r​e​t​r​i​e​v​a​l​-​a​u​g​m​e​n​t​e​d​-​g​e​n​e​r​ation
13M. Syed et E. Rus­si, « Qu’est-ce que la recherche vec­to­rielle ? » [En ligne]. Dis­po­nible sur : https://​www​.ibm​.com/​f​r​-​f​r​/​t​o​p​i​c​s​/​v​e​c​t​o​r​-​s​earch
14J. Ges­nouin et al., « LLa­Man­de­ment : Large Lan­guage Models for Sum­ma­ri­za­tion of French Legis­la­tive Pro­po­sals ». 2024. [En ligne]. Dis­po­nible sur : https://​arxiv​.org/​a​b​s​/​2​4​0​1​.​16182
15« LLa­Man­de­ment, le LLM open source du gou­ver­ne­ment fran­çais ».  [En ligne]. Dis­po­nible sur : https://​www​.actuia​.com/​a​c​t​u​a​l​i​t​e​/​l​l​a​m​a​n​d​e​m​e​n​t​-​l​e​-​l​l​m​-​o​p​e​n​-​s​o​u​r​c​e​-​d​u​-​g​o​u​v​e​r​n​e​m​e​n​t​-​f​r​a​n​cais/

Soutenez une information fiable basée sur la méthode scientifique.

Faire un don à Polytechnique Insights