Accueil / Chroniques / Comment les IA libres pourraient moderniser les services publics
Powerful gust of wind symbolized by dynamic, swirling lines enveloping an open laptop that displays lines of open-source code on the screen
Généré par l'IA / Generated using AI
π Numérique π Société π Science et technologies

Comment les IA libres pourraient moderniser les services publics

Christophe Gaie
Christophe Gaie
chef de division ingénierie et innovation numérique au sein des services du Premier ministre
Laurent Denis
Laurent Denis
architecte technique au sein des services du Premier ministre
En bref
  • L’IA et les LLM constituent une opportunité majeure pour transformer l’action publique, notamment en améliorant la qualité et l’efficacité des services.
  • L’IA libre apparaît à ce titre comme une option intéressante pour moderniser les services publics numériques, avec des risques restant à évaluer.
  • L’IA libre présente de nombreux avantages, notamment un niveau de transparence complet sur le code source, la réduction des coûts ainsi que l’indépendance des administrations aux éditeurs.
  • Les modèles d’IA fermés présentent également des avantages, comme une moindre sujétion à certaines manipulations du paramétrage ou un meilleur contrôle du fonctionnement de l’IA.
  • Il est essentiel d’étudier en profondeur les enjeux éthiques liés à l’utilisation de l’IA dans le secteur public, notamment pour se prémunir de certains biais.

L’in­tel­li­gence arti­fi­cielle (IA), et plus spé­ci­fi­que­ment les grands modèles de lan­gage (Large Lan­guage Models), consti­tuent une oppor­tu­ni­té majeure pour trans­for­mer l’ac­tion publique. L’IA peut en effet être uti­li­sée dans de nom­breux domaines pour amé­lio­rer l’ef­fi­ca­ci­té, la qua­li­té des ser­vices ren­dus aux citoyens et la prise de décision.

Tou­te­fois, l’implémentation de l’IA au sein des ser­vices publics pré­sente des enjeux majeurs. D’abord, la solu­tion rete­nue doit garan­tir l’é­qui­té de trai­te­ment, la trans­pa­rence des déci­sions et des actions sur un dos­sier, ou encore, assu­rer le res­pect des droits fon­da­men­taux tout au long de son uti­li­sa­tion. De plus, la pro­tec­tion rigou­reuse des don­nées per­son­nelles, sou­vent sen­sibles dans le cadre des ser­vices publics, est un enjeu de sécu­ri­té consé­quent. Enfin, l’explicabilité des déci­sions consti­tue un fac­teur majeur dans la confiance envers les solu­tions uti­li­sées et leur accep­ta­bi­li­té par les citoyens. Ain­si, l’utilisation d’une solu­tion offrant un fort niveau de trans­pa­rence consti­tue un atout dans la mise en place et l’acceptation des solu­tions d’intelligence arti­fi­cielle. Mais au regard de la com­plexi­té du sujet, la mise en avant des cri­tères per­met­tant d’assurer le niveau de trans­pa­rence atten­du est loin d’être tri­viale à définir.

La définition d’une IA libre est un sujet encore soumis à débat

Les grands modèles de lan­gage s’appuient sur des réseaux de neu­rones entraî­nés sur une très grande quan­ti­té de don­nées. À par­tir d’une séquence de mots, ils déter­minent de manière sta­tis­tique le mot répon­dant le mieux à la séquence don­née. En appli­quant ce prin­cipe de manière récur­sive, les LLM sont à même de pro­duire des textes struc­tu­rés, don­nant l’impression que la machine ana­lyse et com­prend la ques­tion posée.

Le texte pro­duit va donc dépendre :

  • des algo­rithmes uti­li­sés, qui vont per­mettre au modèle de peser l’importance de chaque mot dans une phrase par rap­port aux autres. Cette capa­ci­té est notam­ment don­née à tra­vers des archi­tec­tures de type « trans­for­mers1 ».
  • du poids affec­té aux dif­fé­rents neu­rones, qui vont per­mettre d’activer le réseau afin de pro­duire la don­née en sortie ;
  • du cor­pus d’apprentissage, qui a une inci­dence directe sur la déter­mi­na­tion des poids uti­li­sés par le modèle.

Les 4 prin­cipes (uti­li­ser, étu­dier, modi­fier, par­ta­ger) asso­ciés aux logi­ciels libres2  doivent donc se décli­ner sur l’ensemble de ces élé­ments3 . Le sujet est encore sou­mis à débat et engendre ain­si de nom­breuses confu­sions4. Ain­si, cer­taines IA se pré­ten­dant libres com­portent des res­tric­tions d’utilisation allant à l’encontre des prin­cipes défi­nis5. Après un long pro­ces­sus, l’Open source ini­tia­tive (OSI), qui réunit des cher­cheurs, des juristes, des déci­deurs poli­tiques, des mili­tants et des repré­sen­tants de grandes entre­prises tech­no­lo­giques, pro­pose une défi­ni­tion qui met en cor­ré­la­tion les 4 liber­tés asso­ciées aux logi­ciels libres et les élé­ments sur les­quels s’adossent les LLM.

Selon l’Open source ini­tia­tive, un sys­tème d’ap­pren­tis­sage auto­ma­tique libre doit inclure les élé­ments sui­vants6 :

  • des infor­ma­tions suf­fi­sam­ment détaillées sur les don­nées uti­li­sées pour entraî­ner le sys­tème, per­met­tant à une per­sonne com­pé­tente de construire un sys­tème sub­stan­tiel­le­ment équi­valent. Ces infor­ma­tions doivent être dis­po­nibles sous des termes approu­vés par l’OSI ;
  • le code source de l’IA, y com­pris le code d’in­fé­rence pour exé­cu­ter le modèle ;
  • l’en­semble des para­mètres appris qui se super­posent à l’ar­chi­tec­ture du modèle pour pro­duire une sor­tie à par­tir d’une entrée donnée.

La publi­ca­tion du cor­pus d’apprentissage n’est donc pas obli­ga­toire, mais un des­crip­tif détaillé de ce der­nier doit obli­ga­toi­re­ment être pré­sent. Force est de consta­ter que de nom­breux modèles offrant de très bonnes per­for­mances et se qua­li­fiant de libres ne res­pectent pas ce der­nier point. On par­le­ra alors de modèles à poids ouverts. Un com­pa­ra­teur des modèles d’IA est d’ailleurs mis à dis­po­si­tion par le Pôle d’Expertise de la Régu­la­tion Numé­rique (PER­eN).

Quels sont les risques et avantages associés aux différentes typologies de licences ?

Le code source est lisible par l’homme et donne un accès aux algo­rithmes uti­li­sés. Les poids sont le résul­tat de l’entraînement et repré­sentent les connais­sances du modèle. Dans le cas de modèles à poids ouvert, ces connais­sances peuvent faire l’objet d’une per­son­na­li­sa­tion à tra­vers une pro­ces­sus de fine-tuning7.

Tou­te­fois, cela ne per­met pas une trans­pa­rence totale comme la détec­tion de biais ou des attaques de type « empoi­son­ne­ment » qui consistent à alté­rer les connais­sances d’un modèle, sans que ces modi­fi­ca­tions soient faci­le­ment détec­tables par les tests stan­dards89. Seul un modèle libre don­nant accès à son cor­pus d’apprentissage garan­tit un niveau de trans­pa­rence total, notam­ment en per­met­tant une maî­trise com­plète de son entraî­ne­ment. Cepen­dant, cette démarche de recons­truc­tion à par­tir des sources néces­site encore des moyens de cal­culs impor­tants que peu d’entités sont en mesure d’acquérir.

Le 30 octobre 2023, le pré­sident Biden a publié un décret inti­tu­lé Safe, Secure, and Trust­wor­thy Deve­lop­ment and Use of Arti­fi­cial Intel­li­gence, visant à éva­luer les risques et les avan­tages des modèles de fon­da­tion pour les­quels les poids sont dis­po­nibles. Le rap­port issu de cette étude10 recon­naît les avan­tages de l’ac­cès ouvert aux poids des modèles, tels que l’in­no­va­tion et la recherche, mais sou­ligne éga­le­ment les risques poten­tiels, notam­ment la pos­si­bi­li­té d’u­ti­li­sa­tion mal­veillante, la sup­pres­sion des méca­nismes de sécu­ri­té et l’im­pact sur la concur­rence. Le rap­port conclut que les don­nées actuelles ne sont pas suf­fi­santes pour déter­mi­ner de manière défi­ni­tive si des res­tric­tions sur les modèles à poids ouverts sont jus­ti­fiées et recom­mande une sur­veillance active de ces modèles.

Les modèles fer­més, même s’ils ne béné­fi­cient pas du même niveau de trans­pa­rence et d’inadaptabilité que leurs homo­logues libres ou à poids ouverts, ne sont pour autant pas dénués d’avantages. Ils sont moins sujets aux risques de mani­pu­la­tions évo­qués ci-des­sus car leurs poids ne sont pas modi­fiables par un tiers, les risques sur la pro­prié­té intel­lec­tuelle des don­nées d’entraînement sont por­tés par le four­nis­seur du modèle, l’éditeur peut rapi­de­ment agir sur son modèle afin de réagir en cas d’abus, contri­buant ain­si à atté­nuer les risques poten­tiels liés à l’IA, tels que la dif­fu­sion de conte­nus inap­pro­priés11. Tou­te­fois, tout cela se fait au détri­ment de l’autonomie que l’on peut avoir sur le modèle d’IA.

Faut-il privilégier les IA sous licence libre ?

L’utilisation d’IA libres au sens de l’OSI pré­sente de nom­breux avan­tages. Tout d’a­bord, la trans­pa­rence de leur fonc­tion­ne­ment est garan­tie puisqu’il est direc­te­ment pos­sible d’accéder et de modi­fier leur code source et d’inspecter les don­nées d’entraînement. Cette pos­si­bi­li­té est une garan­tie fon­da­men­tale puisque chaque modèle uti­li­sé peut faire l’objet d’une véri­fi­ca­tion appro­fon­die afin de garan­tir que le pro­ces­sus de déci­sion est conforme au droit en vigueur et ne pré­sente pas de biais de dis­cri­mi­na­tion, par exemple. Par contre, lorsque l’IA est uti­li­sée dans le cadre d’une « Géné­ra­tion aug­men­tée par la recherche » (Retrie­val-aug­men­ted gene­ra­tion ou RAG12), le niveau de trans­pa­rence qui doit être exi­gé peut être moindre car les don­nées uti­li­sées pour for­mu­ler les réponses sont four­nies par l’intermédiaire d’un algo­rithme sur lequel il est plus facile d’avoir le niveau de maî­trise atten­du. Le cor­pus de réponses étant don­né par des algo­rithmes de recherches clas­siques, il est alors rela­ti­ve­ment facile de four­nir à l’usager final, en plus de la réponse atten­due, les don­nées brutes et leur niveau de confiance. Tou­te­fois, cela sup­pose un regard cri­tique de la part de l’utilisateur final.

Même si les mis­sions de l’État sont par essence rela­ti­ve­ment spé­ci­fiques, on constate que de nom­breux cas d’utilisations se rap­prochent de ce qui peut être fait dans des socié­tés pri­vées, à savoir appor­ter une réponse à une ques­tion en exploi­tant un cor­pus docu­men­taire à l’aide d’algorithmes de recherches clas­siques ou vec­to­rielles qui s’appuient sur la notion de simi­la­ri­té13. Il n’est donc pas aber­rant de consta­ter une conver­gence sur les modèles uti­li­sés dans les deux mondes. Pour l’État, le cri­tère dis­cri­mi­nant dans le choix des modèles sera donc en lien avec la pré­ser­va­tion des infor­ma­tions per­son­nelles ou des infor­ma­tions sen­sibles trans­mises aux modèles d’IA.

L’utilisation de solu­tions libres per­met de réduire dras­ti­que­ment les dépenses

Au-delà des aspects évo­qués ci-des­sus, l’utilisation de solu­tions open-sources per­met aus­si à l’État de dif­fu­ser ses tra­vaux afin que ces der­niers puissent être réuti­li­sés par le sec­teur public ou pri­vé. Ain­si, la DGFiP a publié des tra­vaux sur un modèle per­met­tant de syn­thé­ti­ser les amen­de­ments par­le­men­taires1415. Ils sont ain­si en capa­ci­té de par­ta­ger acti­ve­ment leurs connais­sances dans les limites de la confi­den­tia­li­té néces­saires aux mis­sions régaliennes.

Enfin, l’utilisation de solu­tions libres per­met de réduire dras­ti­que­ment les dépenses, en les limi­tant au sup­port tech­nique sans coût de licence.

Existe-il des difficultés à mettre en place des IA sous licence libre ?

L’u­ti­li­sa­tion d’IA sous licence libre pré­sente éga­le­ment dif­fé­rents défis à rele­ver. En pre­mier lieu, la mise en place de solu­tions libres requiert de bien maî­tri­ser le fonc­tion­ne­ment des modèles sous-jacents. À cette com­plexi­té, s’ajoute par ailleurs la néces­si­té de dis­po­ser des com­pé­tences tech­niques qui per­mettent d’adapter les modèles aux besoins métiers, de dis­po­ser des don­nées néces­saires à l’apprentissage, de para­mé­trer le modèle (fine-tuning), si l’application métier le néces­site, de le déployer dans le SI de l’administration et d’en garan­tir la plus haute sécurité.

De plus, leur main­te­nance évo­lu­tive et cor­rec­tive néces­site un inves­tis­se­ment en temps non négli­geable, tant pour mettre à jour les modèles ou assu­rer un niveau de non-régres­sion satis­fai­sant que pour assu­rer leur bon fonc­tion­ne­ment. Bien que le code soit libre, l’ex­ploi­ta­tion de ces IA requiert sou­vent aus­si des infra­struc­tures infor­ma­tiques s’appuyant sur des uni­tés de cal­culs spé­cia­li­sées, ce qui peut repré­sen­ter un coût indi­rect. Enfin, la qua­li­té des modèles libres peut varier consi­dé­ra­ble­ment notam­ment selon les cas métiers que l’on sou­haite trai­ter, et il n’existe pas de garan­ties abso­lues quant à leurs per­for­mances. Il est donc essen­tiel de défi­nir pré­ci­sé­ment les atten­dus avec les équipes métiers et de pro­cé­der à une véri­fi­ca­tion des résul­tats atten­dus avant la mise en ser­vice de toute version.

Conclusion

L’in­té­gra­tion de l’in­tel­li­gence arti­fi­cielle au sein des ser­vices publics repré­sente une oppor­tu­ni­té unique d’a­mé­lio­rer l’ef­fi­ca­ci­té, la qua­li­té des ser­vices ren­dus aux citoyens et la prise de déci­sion dans un contexte de ten­sion sur les res­sources humaines dis­po­nibles. Les modèles de lan­gage libres semblent être des outils par­ti­cu­liè­re­ment adap­tés à cet enjeu.

En dépit des défis, les avan­tages des IA libres sont nom­breux. Ils favo­risent l’in­no­va­tion, réduisent les coûts et ren­forcent l’au­to­no­mie des administrations.

Pour autant, il est indis­pen­sable d’étudier en pro­fon­deur les enjeux éthiques liés à l’u­ti­li­sa­tion de l’IA dans le sec­teur public. En effet, il est néces­saire de mettre en place des pro­ces­sus et méthodes per­met­tant de se pré­mu­nir des biais algo­rith­miques et garan­tir une uti­li­sa­tion rai­son­nable des tech­no­lo­gies, en garan­tis­sant leur contrôle par des experts numé­riques, juri­diques, voire par les citoyens eux-mêmes.

Clause de non-res­pon­sa­bi­li­té : Le conte­nu de cet article n’engage que ses auteurs et n’a pas de por­tée autre que celle de l’information et de la recherche académique.

1A. Vas­wa­ni et al., « Atten­tion Is All You Need ». 2023. [En ligne]. Dis­po­nible sur : https://​arxiv​.org/​a​b​s​/​1​7​0​6​.​03762
2« Logi­ciel libre », Wiki­pé­dia. 14 novembre 2024. [En ligne]. Dis­po­nible sur : https://​fr​.wiki​pe​dia​.org/​w​/​i​n​d​e​x​.​p​h​p​?​t​i​t​l​e​=​L​o​g​i​c​i​e​l​_​l​i​b​r​e​&​o​l​d​i​d​=​2​2​0​2​93632
3B. Doerr­feld, « Be care­ful with ‘open source’ AI », Lead­Dev. [En ligne]. Dis­po­nible sur : https://​lead​dev​.com/​t​e​c​h​n​i​c​a​l​-​d​i​r​e​c​t​i​o​n​/​b​e​-​c​a​r​e​f​u​l​-​o​p​e​n​-​s​o​u​r​ce-ai
4W. Rhian­non, « We final­ly have a defi­ni­tion for open-source AI », MIT Tech­no­lo­gy Review. [En ligne]. Dis­po­nible sur : https://​www​.tech​no​lo​gy​re​view​.com/​2​0​2​4​/​0​8​/​2​2​/​1​0​9​7​2​2​4​/​w​e​-​f​i​n​a​l​l​y​-​h​a​v​e​-​a​-​d​e​f​i​n​i​t​i​o​n​-​f​o​r​-​o​p​e​n​-​s​o​u​r​c​e-ai/
5N. Lam­bert, « The koan of an open-source LLM », Inter­con­nects. [En ligne]. Dis­po­nible sur : https://​www​.inter​con​nects​.ai/​p​/​a​n​-​o​p​e​n​-​s​o​u​r​c​e-llm
6« The Open Source AI Defi­ni­tion – 1.0 – Open Source Ini­tia­tive », Open source ini­tia­tive.  [En ligne]. Dis­po­nible sur : https://​open​source​.org/​a​i​/​o​p​e​n​-​s​o​u​r​c​e​-​a​i​-​d​e​f​i​n​ition
7Sté­phane Le Calme, « L’équilibre déli­cat entre sécu­ri­té et inno­va­tion dans l’IA : « ban­nir les modèles “open weights” serait un désastre ».  [En ligne]. Dis­po­nible sur : https://intelligence-artificielle.developpez.com/actu/356012/L‑equilibre-delicat-entre-securite-et-innovation-dans-l-IA-bannir-les-modeles-open-weights-serait-un-desastre-selon-un-chercheur-l-administration-Biden-envisage-de-bloquer-l-acces-a-ces-modeles-afin-d-eviter-les-abus/
8« Poi­sonGPT : des LLM détour­nés à la racine – Data & IA – Sili​con​.fr ».  [En ligne]. Dis­po­nible sur : https://​www​.sili​con​.fr/​T​h​e​m​a​t​i​q​u​e​/​d​a​t​a​-​i​a​-​1​3​7​2​/​B​r​e​v​e​s​/​P​o​i​s​o​n​G​P​T​-​d​e​s​-​L​L​M​-​d​e​t​o​u​r​n​e​s​-​a​-​l​a​-​r​a​c​i​n​e​-​4​0​2​7​8​3.htm
9« LLM03 : Trai­ning Data Poi­so­ning – OWASP Top 10 for LLM & Gene­ra­tive AI Secu­ri­ty », OWASP. [En ligne]. Dis­po­nible sur : https://​genai​.owasp​.org/​l​l​m​r​i​s​k​/​l​l​m​0​3​-​t​r​a​i​n​i​n​g​-​d​a​t​a​-​p​o​i​s​o​ning/
10NTIA Report, « Dual-Use Foun­da­tion Models with Wide­ly Avai­lable Model Weights », juill. 2024. [En ligne]. Dis­po­nible sur : https://​www​.ntia​.gov/​s​i​t​e​s​/​d​e​f​a​u​l​t​/​f​i​l​e​s​/​p​u​b​l​i​c​a​t​i​o​n​s​/​n​t​i​a​-​a​i​-​o​p​e​n​-​m​o​d​e​l​-​r​e​p​o​r​t.pdf
11I. Solai­man, « Gene­ra­tive AI Sys­tems Aren’t Just Open or Clo­sed Source », Wired. [En ligne]. Dis­po­nible sur : https://​www​.wired​.com/​s​t​o​r​y​/​g​e​n​e​r​a​t​i​v​e​-​a​i​-​s​y​s​t​e​m​s​-​a​r​e​n​t​-​j​u​s​t​-​o​p​e​n​-​o​r​-​c​l​o​s​e​d​-​s​o​urce/
12« What is Retrie­val-Aug­men­ted Gene­ra­tion (RAG)? | The Com­plete Guide ». [En ligne]. Dis­po­nible sur : https://​www​.k2view​.com/​w​h​a​t​-​i​s​-​r​e​t​r​i​e​v​a​l​-​a​u​g​m​e​n​t​e​d​-​g​e​n​e​r​ation
13M. Syed et E. Rus­si, « Qu’est-ce que la recherche vec­to­rielle ? » [En ligne]. Dis­po­nible sur : https://​www​.ibm​.com/​f​r​-​f​r​/​t​o​p​i​c​s​/​v​e​c​t​o​r​-​s​earch
14J. Ges­nouin et al., « LLa­Man­de­ment : Large Lan­guage Models for Sum­ma­ri­za­tion of French Legis­la­tive Pro­po­sals ». 2024. [En ligne]. Dis­po­nible sur : https://​arxiv​.org/​a​b​s​/​2​4​0​1​.​16182
15« LLa­Man­de­ment, le LLM open source du gou­ver­ne­ment fran­çais ».  [En ligne]. Dis­po­nible sur : https://​www​.actuia​.com/​a​c​t​u​a​l​i​t​e​/​l​l​a​m​a​n​d​e​m​e​n​t​-​l​e​-​l​l​m​-​o​p​e​n​-​s​o​u​r​c​e​-​d​u​-​g​o​u​v​e​r​n​e​m​e​n​t​-​f​r​a​n​cais/

Soutenez une information fiable basée sur la méthode scientifique.

Faire un don