Accueil / Chroniques / L’IA, une arme contre la fraude fiscale
AdobeStock_601667456
π Économie π Science et technologies

L’IA, une arme contre la fraude fiscale

Christophe Gaie
Christophe Gaie
chef de division ingénierie et innovation numérique au sein des services du Premier ministre
En bref
  • La fraude fiscale est un enjeu majeur puisqu’il représente 4 à 15 % de l’écart fiscal dans différents pays de l’OCDE.
  • En France, il y a une volonté de renforcer la lutte contre la fraude, notamment en utilisant des outils liés à l’intelligence artificielle.
  • Le CISIRH a développé un cadre opérationnel et théorique permettant de comparer les différents algorithmes de détection des fraudes à travers le monde.
  • Pour combattre efficacement contre les fraudes fiscales, les IA et les algorithmes ne suffiront pas ; cette lutte doit s’inscrire dans une dimension collective et humaine.

Les enjeux de la détec­tion de la fraude fis­cale sont majeurs, en par­ti­cu­lier dans un contexte de défi­cit éle­vé des États. La fraude repré­sente une par­tie impor­tante de l’écart fis­cal esti­mé entre 4 et 15 % des sommes dues au sein de dif­fé­rents pays de l’OCDE. En France, par exemple, la simple fraude à la TVA est esti­mée entre 20 et 25 mil­liards d’euros1. De ce fait La Cour des Comptes a publié de nom­breux rap­ports sou­li­gnant l’importance de ren­for­cer la lutte contre la fraude2. En France, la fraude fis­cale est coor­don­née par la DGFiP qui uti­lise de nom­breux outils liés à l’intelligence arti­fi­cielle qui apportent de très bons résultats.

Dans cet esprit, Chris­tophe Gaie a consti­tué un groupe-pro­jet avec des étu­diants de Cen­tra­le­Su­pé­lec. Ensemble, ils ont mené une étude de recherche qui avait pour but de mettre en place un cadre opé­ra­tion­nel (métho­do­lo­gie, approche algo­rith­mique, code infor­ma­tique, don­nées de simu­la­tion…) et le par­ta­ger avec l’ensemble des per­sonnes enga­gés pour lut­ter contre la fraude3.

Quel était l’objectif de cette étude ?

Ce pro­jet s’inscrit dans la lignée de recherches plus théo­riques qui ont per­mis de défi­nir et d’articuler les dif­fé­rents concepts, enjeux et orien­ta­tions du domaine4. Il pro­longe et met en œuvre cette dimen­sion théo­rique et pro­pose un cadre opé­ra­tion­nel qui per­met de déve­lop­per et de com­pa­rer des algo­rithmes déve­lop­pés par des cher­cheurs du monde entier.

L’optimisation n’étant pas une action pro­hi­bée, nos tra­vaux se sont concen­trés sur la fraude au sens de l’irrégularité. Nous avons éga­le­ment concen­tré nos efforts sur la détec­tion de la fraude effec­tuée par les per­sonnes phy­siques, la fraude des per­sonnes morales pou­vant être trai­tée par ailleurs.

D’où vient votre base de données pour cette étude ?

Un dos­sier fis­cal peut conte­nir de nom­breuses don­nées liées à la per­sonne : sa situa­tion de famille, ses reve­nus, son patri­moine, etc. Que cela soit en labo­ra­toire ou lorsque l’on étu­die des don­nées réelles il n’est pas tou­jours pos­sible de dis­po­ser de l’ensemble des don­nées. Ain­si, nous avons consti­tué une base de don­nées fic­tive qui s’appuie sur un ensemble de don­nées pré­sé­lec­tion­nées : caté­go­rie socio­pro­fes­sion­nelle, reve­nus, dépenses, mon­tant des biens immo­bi­liers. Cette base peut bien enten­du être com­plé­tée par la suite.

Pour des rai­sons légi­times de confi­den­tia­li­té de don­nées per­son­nelles, la DGFiP ne peut pas mettre à dis­po­si­tion des don­nées pour la détec­tion de la fraude su. Dès lors, chaque cher­cheur consti­tue de manière indé­pen­dante sa propre base de don­nées, ce qui s’avère pré­ju­di­ciable pour plu­sieurs rai­sons. A titre d’exemple, chaque cher­cheur doit construire une base de don­nées propre ce qui est chro­no­phage qui doit s’approprier des concepts de reve­nus, de patri­moine, etc. Mais aus­si, les algo­rithmes des cher­cheurs ne sont pas for­cé­ment com­pa­rables entre eux, les bases de réfé­rences étant une approche clas­sique dans le domaine de la recherche numé­riques (base de réfé­rences, de signaux de télé­com­mu­ni­ca­tion ou d’images…).

Comment cette IA identifie-t-elle les cas de fraude ?

L’intelligence arti­fi­cielle s’appuie sur une modé­li­sa­tion des dos­siers fis­caux et per­met de sélec­tion­ner les dos­siers à contrô­ler, selon des cri­tères para­mé­trables. A par­tir d’une connais­sance des prin­ci­paux cas de fraude, nous avons défi­ni la pro­ba­bi­li­té de fraude d’un contri­buable selon dif­fé­rentes typologies :

  • De fortes dépenses et/ou un patri­moine éle­vé en com­pa­rai­son aux revenus,
  • De faibles dépenses et/ou un patri­moine réduit en com­pa­rai­son aux revenus,
  • Un impor­tant patri­moine com­pa­ré avec des per­sonnes simi­laires au sein de sa caté­go­rie socioprofesionnelle.

Le jeu de don­nées5 a été consti­tué à l’aide de don­nées de réfé­rences publiées par l’INSEE, en pre­nant en compte la répar­ti­tion en caté­go­ries socio­pro­fes­sion­nelles, la répar­ti­tion des reve­nus et du patri­moine et la répar­ti­tion des dépenses selon ces caté­go­ries socio­pro­fes­sion­nelle. La répar­ti­tion en caté­go­ries s’appuie sur le simple pour­cen­tage de la situa­tion réelle. En ce qui concerne les autres para­mètres, nous avons rete­nu une dis­tri­bu­tion Singh–Maddala6.

La lutte contre la fraude ne peut pas repo­ser sur de simples algo­rithmes détec­tion et doit s’intégrer dans une dimen­sion col­lec­tive et humaine.

Pour détec­ter les cas poten­tiels de fraude, nous avons déve­lop­pé dif­fé­rents types d’algorithmes : soit fon­dés sur des réseaux de neu­rones avec dif­fé­rents échan­tillon­nages, soit fon­dés sur une forêt aléa­toire (« ran­dom forest ») c’est-à-dire une col­lec­tion d’arbres de déci­sion uti­li­sée pour résoudre un pro­blème de classifications.

Est-ce que ces algorithmes ont été utilisés sur des cas réels ?

Bien que les algo­rithmes n’aient pas été mis en œuvre sur des don­nées réelles, il est tout à fait pos­sible de par­ta­ger ces élé­ments avec les agents publics, notam­ment ceux du bureau SJCF-1D de la DGFiP « Pro­gram­ma­tion des contrôles et ana­lyse des don­nées », au sein duquel l’un des étu­diants à réa­li­sé un stage par la suite. Toute col­la­bo­ra­tion ou retour d’expérience avec une enti­té publique consti­tue­rait une oppor­tu­ni­té à saisir.

Quel est le niveau de précision ?

Il est impor­tant de rap­pe­ler qu’il existe un com­pro­mis dans la détec­tion entre la pré­ci­sion (i.e. le taux de pré­dic­tions cor­rectes par­mi les réponses posi­tives) et la sen­si­bi­li­té (i.e. le taux d’individus posi­tifs détec­tés par le modèle). Les résul­tats d’un algo­rithme s’expriment donc d’après une métrique qui tient compte du com­pro­mis entre la pré­ci­sion et la sen­si­bi­li­té (AUPRC : « area under the pre­ci­sion-recall curve »).

Les algo­rithmes pro­po­sés per­mettent d’atteindre un AUPRC jusqu’à 0.851 pour la forêt aléa­toire opti­mi­sée pour la sen­si­bi­li­té. Cela consti­tue un excellent résul­tat qui indique des pers­pec­tives par­ti­cu­liè­re­ment utiles pour la détec­tion de fraudes poten­tielles en s’appuyant sur l’intelligence artificielle.

Est-ce que l’IA suffit ?

Non. La lutte contre la fraude ne peut pas repo­ser sur de simples algo­rithmes détec­tion et doit s’intégrer dans une dimen­sion col­lec­tive et humaine. Et cela, parce que­la lutte contre la fraude n’est pas uni­que­ment un sujet tech­no­lo­gique. En effet, la détec­tion d’une fraude poten­tielle doit être cor­ro­bo­rée par l’action d’un véri­fi­ca­teur fis­cal, dans le cadre d’une pro­cé­dure qui res­pecte des droits du contri­buable. Cette approche garan­tie que la situa­tion sera étu­diée par des per­sonnes qui tien­dront compte de la juris­pru­dence fis­cale, sous le contrôle d’un juge.

Dès lors, il est impor­tant de com­prendre que l’analyse d’un dos­sier est confiée aux véri­fi­ca­teurs selon des cri­tères de com­pé­tences, de charge de tra­vail, d’intérêt pro­fes­sion­nel, de cou­ver­ture du tis­su fis­cal, etc. Nous avons pro­po­sé des algo­rithmes qui visent à pro­po­ser une répar­ti­tion à un chef de bri­gade (res­pon­sable d’une équipe de véri­fi­ca­teurs) qui garde le der­nier mot. En effet, celui-ci peut éga­le­ment tenir compte de cri­tères sub­jec­tifs tels que la néces­si­té de for­mer de nou­veaux agents quand bien même l’attribution des dos­siers ne serait alors plus optimale.

Enfin, il est utile de rap­pe­ler qu’une appli­ca­tion de détec­tion de la fraude doit s’intégrer à un sys­tème d’information qui assure la réa­li­sa­tion de l’ensemble mis­sions de l’administration. Dès lors, au-delà des tra­vaux de recherche, la mise en œuvre opé­ra­tion­nelle requiert de pré­voir à la fois les inter­con­nexions avec d’autres appli­ca­tions et la main­te­na­bi­li­té de l’application de détec­tion de la fraude. De même, la capa­ci­té à inté­grer de nou­veaux algo­rithmes plus per­for­mants devrait éga­le­ment être détaillée.

James Bowers

Clause de non-res­pon­sa­bi­li­té : Le conte­nu de cet article n’engage que son auteur et n’ont pas de por­tée autre que celle de l’information et de la recherche académique.

Remer­cie­ments : L’auteur remer­cie les étu­diants de Cen­tra­le­Su­pé­lec qui sont inter­ve­nus sur le pro­jet ain­si que l’ensemble des co-auteurs avec les­quels il a effec­tué ses recherches pour contri­buer à la recherche aca­dé­mique contre la fraude.

1https://​www​.insee​.fr/​f​r​/​s​t​a​t​i​s​t​i​q​u​e​s​/​6​4​78533
2https://www.ccomptes.fr/system/files/2019–11/20191202-synthese-fraude-aux-prelevements-obligatoires.pdf
3Prol­hac, J., Gaie, C. « Pro­vi­ding an open fra­me­work to faci­li­tate tax fraud detec­tion », Inter­na­tio­nal Jour­nal of Com­pu­ter Appli­ca­tions in Tech­no­lo­gy, In Publish, 2023, https://​doi​.org/​1​0​.​1​5​0​4​/​I​J​C​A​T​.​2​0​2​3​.​1​0​0​55494
4Gaie, C. (2023). Strug­gling Against Tax Fraud, a Holis­tic Approach Using Arti­fi­cial Intel­li­gence. In : Gaie, C., Meh­ta, M. (eds) Recent Advances in Data and Algo­rithms for e‑Government. Arti­fi­cial Intel­li­gence-Enhan­ced Soft­ware and Sys­tems Engi­nee­ring, vol 5. Sprin­ger, Cham. https://doi.org/10.1007/978–3‑031–22408-9_4
5https://​git​lab​.com/​j​e​a​n​.​p​r​o​l​h​a​c​/​d​e​t​e​c​t​i​o​n​-​d​e​-​f​r​aude/
6Singh, A., Nari­na, T. and Aakank­sha, S. (2016) ‘A review of super­vi­sed machine lear­ning algo­rithms’, Pro­cee­dings of the 3rd Inter­na­tio­nal Confe­rence on Com­pu­ting for Sus­tai­nable Glo­bal Deve­lop­ment (INDIA­Com), pp.1310–1315. https://​ieeex​plore​.ieee​.org/​a​b​s​t​r​a​c​t​/​d​o​c​u​m​e​n​t​/​7​7​24478

Soutenez une information fiable basée sur la méthode scientifique.

Faire un don