Accueil / Chroniques / Crise de la reproductibilité : la science nous tromperait-elle ?
Généré par l'IA / Generated using AI
π Science et technologies

Crise de la reproductibilité : la science nous tromperait-elle ?

Florian Naudet_VF
Florian Naudet
psychiatre, professeur de thérapeutique à l'Université de Rennes et membre senior de l'Institut Universitaire de France
Avatar
Larry Vernon Hedges
professeur titulaire en statistique et science des données, en éducation et politique sociale, de psychologie et de sciences sociales médicales à l’Université de Northwestern
Avatar
Thomas Rhys Evans
psychologue et professeur en psychologie du travail et en recherche ouverte à l’Université de Greenwich
En bref
  • En 2005, John Ioannidis montrait que la probabilité qu’un effet rapporté dans un article scientifique soit réel était fortement réduite dans certaines conditions (petits échantillons, effets faibles, nombreux tests et biais méthodologiques).
  • De nombreuses études ont montré que les biais cognitifs des chercheurs, en particulier les convictions préalables, peuvent influencer leurs résultats.
  • Les études de reproduction des résultats (réplication) peuvent contribuer à consolider très concrètement le savoir scientifique.
  • Les initiatives de science ouverte et de transparence restent limitées, et se juxtaposent à la culture dominante de l’évaluation scientifique plus qu’elles ne la remplacent.

C’est le pre­mier des dix cri­tères de la « Gold Stan­dard Science » édic­tés par l’administration Trump : pour être jugée digne d’éclairer l’action publique et de fon­der les déci­sions régle­men­taires aux États-Unis, la science devrait être repro­duc­tible. Cette exi­gence inter­vient alors que plu­sieurs tra­vaux de grande ampleur montrent que les cher­cheurs peinent à repro­duire les résul­tats éta­blis par leurs pairs dans de nom­breuses dis­ci­plines. À quel point faut-il s’en inquié­ter ? Est-il rai­son­nable d’attendre que la science soit tou­jours repro­duc­tible ? Et com­ment sur­mon­ter cette « crise » ?

En 2005, une publi­ca­tion au titre évo­ca­teur, « Why Most Publi­shed Research Fin­dings Are False1 », parue dans la revue PLOS Medi­cine, met­tait le feu aux poudres. John Ioan­ni­dis y éva­luait la fia­bi­li­té des études repo­sant sur l’analyse sta­tis­tique pour tes­ter des hypo­thèses – un type d’études très cou­rant dans la recherche empi­rique. Simu­la­tions à l’appui, le cher­cheur mon­trait que la pro­ba­bi­li­té qu’un effet rap­por­té dans un article scien­ti­fique soit réel était for­te­ment réduite dans cer­taines condi­tions : petits échan­tillons de petite taille, effets de petite taille, mul­ti­pli­ca­tion des hypo­thèses tes­tées, méthodes non stan­dar­di­sées, exis­tence de conflits d’intérêt ou com­pé­ti­tion impor­tante dans le domaine.

Des confirmations expérimentales massives

Dans les années qui suivent, pour ten­ter de docu­men­ter empi­ri­que­ment le phé­no­mène, le col­lec­tif Open Science Col­la­bo­ra­tion2 se lance dans la repro­duc­tion de 100 études expé­ri­men­tales en psy­cho­lo­gie3. Les résul­tats, publiés en 2015, font l’effet d’une bombe : alors que 97 % des études ori­gi­nales iden­ti­fiaient un effet « signi­fi­ca­tif », seules 36 % des répli­ca­tions en trouvent un, et en moyenne d’ampleur deux fois moindre.

Depuis, les conclu­sions de John Ioan­ni­dis sont confir­mées dans de nom­breuses dis­ci­plines. Une col­la­bo­ra­tion issue du Cen­ter for Open Science et de Science Exchange s’est ain­si pen­chée sur la bio­lo­gie du can­cer : dans les répli­ca­tions, les tailles d’effet sont en moyenne 85 % plus petites que les résul­tats ori­gi­naux, et seuls 46 % des effets sont repro­duits avec suc­cès4. Même constat lors d’une ini­tia­tive cou­vrant les sciences sociales, poli­tiques, éco­no­miques et psy­cho­lo­giques. Publiées via une série d’articles dans Nature5 en avril 2026, ses conclu­sions montrent que, dans la moi­tié des cas envi­ron, les cher­cheurs n’ont pas pu répli­quer les résul­tats des études originales.

Le pro­blème s’avère donc pro­fond. Faut-il pour autant en conclure que les connais­sances scien­ti­fiques jugées défi­ni­tives dans ces domaines sont toutes sus­pectes ? Affir­mons-le d’emblée et fer­me­ment : non. Un effet n’est consi­dé­ré cer­tain que lorsqu’il a été confir­mé par plu­sieurs preuves de haut niveau, comme des essais ran­do­mi­sés contrô­lés effec­tués dans de bonnes condi­tions ou des méta-ana­lyses à forte puis­sance sta­tis­tique. « Il n’y a pas lieu de dou­ter de l’efficacité des vac­cins actuels contre la Covid ou du lien entre can­cer du pou­mon et tabac, pour ne citer que ces exemples, car ils ont été iden­ti­fiés dans des tra­vaux conver­gents et issus de dif­fé­rentes dis­ci­plines », com­mente Flo­rian Naudet.

Les édi­teurs acceptent par exemple dif­fi­ci­le­ment les études concluant à l’absence d’effet signi­fi­ca­tif, ce filtre ampute la lit­té­ra­ture scien­ti­fique de résul­tats néga­tifs pour­tant néces­saires à la soli­di­té des connaissances.

Reste que le taux d’erreur dans les études publiées est bien plus éle­vé qu’on le pen­sait, et que cela mérite atten­tion. Dans un sys­tème où les résul­tats s’accumulent et s’agrègent rapi­de­ment, l’enjeu est autant scien­ti­fique que col­lec­tif : il s’agit de limi­ter les détours inutiles de la recherche, d’éviter la mobi­li­sa­tion de res­sources sur des pistes fra­giles, et réduire le risque que des déci­sions publiques s’appuient sur des résul­tats défaillants. Sou­ve­nons-nous par exemple que des chefs d’États ont pro­mu l’usage de l’hydroxychloroquine contre la Covid-19 sur la base de pre­mières études obser­va­tion­nelles encore fra­giles, avant que des essais cli­niques plus robustes ne concluent pro­gres­si­ve­ment à l’absence de béné­fice cli­nique signi­fi­ca­tif. Cer­taines études ini­tiales, très média­ti­sées, ont même été rétractées.

Comme sou­li­gné par John Ioan­ni­dis, les études à faible niveau de preuve (études de cas iso­lés, études sur de tout petits échan­tillons…) sont les plus à risques. « Mais les méta-ana­lyses6 ou les essais ran­do­mi­sés7, pour­tant consi­dé­rés comme beau­coup plus fiables, peuvent eux aus­si être affec­tés par des biais et des erreurs. Sur l’homéopathie, par exemple, les méta-ana­lyses dis­po­nibles dans la lit­té­ra­ture ne convergent pas, ce qui doit nous aler­ter », explique Flo­rian Nau­det. Une ana­lyse plus appro­fon­die, syn­thé­ti­sant les méta-ana­lyses et les revues sys­té­ma­tiques déjà publiées, effec­tuée par le Conseil natio­nal aus­tra­lien de la san­té et de la recherche médi­cale (NHMRC) a de fait mon­tré la fra­gi­li­té de l’écrasante majo­ri­té des études concluants à un effet de l’homéopathie, et a conclu qu’il n’existe aucun pro­blème de san­té pour lequel les preuves de son effi­ca­ci­té sont suf­fi­santes8 « De fait, il n’y a aucune rai­son pour qu’un effet phar­ma­co­lo­gique de l’homéopathie soit iden­ti­fié », pour­suit Flo­rian Naudet. 

Des pratiques discutables en cause ?

Mais alors, com­ment mini­mi­ser les erreurs ? Une par­tie de la réponse tient dans la traque des « pra­tiques dis­cu­tables », ces opé­ra­tions non ouver­te­ment frau­du­leuses mais pré­ju­di­ciables qui peuvent se glis­ser à toutes les étapes du tra­vail de recherche, de la for­mu­la­tion de l’hypothèse à l’interprétation et à la publi­ca­tion des résultats.

Elles sont intrin­sè­que­ment liées au sys­tème actuel de récom­pense des cher­cheurs, pour qui publier, c’est exis­ter. Les articles de revues à comi­té de lec­ture consti­tuent en effet la vitrine et l’étalon de la com­pé­tence, et la pres­sion à publier pèse de tout son poids sur l’ensemble du sys­tème de recherche. « Les pro­blèmes de repro­duc­ti­bi­li­té sont davan­tage liés aux normes et stan­dards atten­dus qu’à des pra­tiques frau­du­leuses déli­bé­rées de la part des cher­cheurs », assure Tho­mas Rhys Evans.

Les édi­teurs acceptent par exemple dif­fi­ci­le­ment les études concluant à l’absence d’effet signi­fi­ca­tif, ce filtre ampute la lit­té­ra­ture scien­ti­fique de résul­tats néga­tifs pour­tant néces­saires à la soli­di­té des connais­sances. Pour diverses rai­sons, des cher­cheurs peuvent éga­le­ment déci­der de ne pas publier leurs résul­tats. « En 2008, il a par exemple été mon­tré qu’une étude sur deux concer­nant les anti­dé­pres­seurs n’était pas publiée, et qu’en géné­ral, les non-publiées concluent à une absence d’effet9 ». L’interprétation des don­nées peut aus­si être exa­gé­rée pour embel­lir un résul­tat ambi­gu ou faible. Si les tra­vaux manquent de relief, les auteurs peuvent être ten­tés de faire évo­luer leur plan de recherche pour qu’apparaisse un effet signi­fi­ca­tif (on parle de p‑hacking). À l’inverse, un résul­tat non pré­vu peut conduire à modi­fier a pos­te­rio­ri les hypo­thèses ini­tiales (HAR­King). « La démarche scien­ti­fique se veut hypo­thé­ti­co-déduc­tive. Mais en pra­tique, nous sommes beau­coup plus induc­tifs que nous le pen­sons », estime Flo­rian Naudet.

De nom­breuses études ont éga­le­ment mon­tré que les biais cog­ni­tifs des cher­cheurs, en par­ti­cu­lier les convic­tions préa­lables, peuvent influen­cer leurs résul­tats. Ce peut être éga­le­ment le cas des liens d’intérêts. « Des tra­vaux sug­gèrent, par exemple, que les méta-ana­lyses sur des maté­riels et trai­te­ments phar­ma­co­lo­giques10 sou­te­nue par l’industrie, ou les études sur l’homéopathie11 réa­li­sées par des cher­cheurs qui pré­sentent des liens d’intérêt, concluent plus sou­vent à des effets posi­tifs que les autres », pour­suit le chercheur.

Des pistes d’action du côté de l’open sciences

Face à ces pra­tiques dis­cu­tables, quels garde-fous mettre en place ? « Il n’existe pas de solu­tion miracle. La mise à dis­po­si­tion libre des maté­riels, des don­nées et du code, ou encore le pré-enre­gis­tre­ment peuvent contri­buer à amé­lio­rer la repro­duc­ti­bi­li­té et la trans­pa­rence des recherches » explique Tho­mas Rhys Evans. Le pré-enre­gis­tre­ment consiste à décla­rer, avant de col­lec­ter les don­nées, ce que l’on compte faire ; dans ces condi­tions, toute modi­fi­ca­tion ulté­rieure sur les hypo­thèses ou la méthode devient plus visible. « La publi­ca­tion des pro­to­coles devrait être impo­sée par les agences de finan­ce­ment de la recherche ain­si que par les revues scien­ti­fiques pour la publi­ca­tion des résul­tats, comme c’est déjà le cas pour les essais cli­niques dans plus de 200 des revues médi­cales les plus pres­ti­gieuses », abonde Lar­ry Ver­non Hedges.

« Ces pra­tiques com­mencent à se répandre, et nous sommes nom­breux à pen­ser que plus de trans­pa­rence aura des effets béné­fiques, résume Flo­rian Nau­det. Mais ces pré­co­ni­sa­tions reposent aujourd’hui plus sur des valeurs que sur des preuves. Est-ce que la com­mu­nau­té va accep­ter de se plier à ces exi­gences ? Est-ce qu’elles auront l’effet escomp­té ? Cela reste à prou­ver par des études solides. » Et donc à obte­nir des finan­ce­ments dédiés.

Une science qui doit apprendre à reproduire

Une petite révo­lu­tion est aus­si à mener dans la manière de conce­voir la repro­duc­tion. Les ini­tia­tives de grande ampleur citées plus haut sont pré­cieuses pour poser des diag­nos­tics glo­baux, mais leur métho­do­lo­gie n’est pas tou­jours adap­tée à l’évaluation des tra­vaux au cas par cas. Or, les études de repro­duc­tion des résul­tats (on parle de répli­ca­tion) peuvent contri­buer à conso­li­der très concrè­te­ment le savoir scien­ti­fique, à condi­tion d’être « bien » conçues. « Des tra­vaux, comme ceux de Har­ry Col­lins12 (NDLR : socio­logue des sciences bri­tan­nique né en 1943) sug­gèrent que des fac­teurs sub­tils influencent sou­vent la réus­site des répli­ca­tions, et que même les scien­ti­fiques impli­qués ne savent pas tou­jours pré­ci­sé­ment quels élé­ments métho­do­lo­giques sont indis­pen­sables pour obte­nir une répli­ca­tion », com­mente Lar­ry Ver­non Hedges.

Au sens strict, il ne suf­fit pas de se fon­der sur une seule étude de répli­ca­tion pour éva­luer de manière robuste un résul­tat précédent.

Au sens strict, il ne suf­fit pas, en effet, de se fon­der sur une seule étude de répli­ca­tion pour éva­luer de manière robuste un résul­tat pré­cé­dent. « Ni même sur plu­sieurs répli­ca­tions moyen­nées et com­pa­rées à l’étude ini­tiale. Il faut plu­sieurs répli­ca­tions indé­pen­dantes, et cha­cune doit être com­pa­rée aux autres. Le point déli­cat est de déter­mi­ner quelles études de répli­ca­tion sont suf­fi­sam­ment simi­laires (à l’étude ori­gi­nale et entre elles) pour être per­ti­nentes, et suf­fi­sam­ment indé­pen­dantes pour appor­ter une infor­ma­tion nouvelle. »

Une dif­fi­cul­té quand on sait que la décou­verte et la nou­veau­té sont très for­te­ment valo­ri­sées par les revues, au détri­ment de la repro­duc­tion. « Il y a d’ailleurs éga­le­ment très peu d’incitations et de finan­ce­ments pour des études de repro­duc­tion », confirme Flo­rian Naudet.

Un écosystème tout entier à réformer

La réflexi­vi­té de la science sur elle-même met donc peu à peu en lumière les forces et les fra­gi­li­tés d’un sys­tème tout entier, dont les mai­sons d’édition, les uni­ver­si­tés, les finan­ceurs et les poli­tiques ne doivent pas être exclus. « On exige de plus en plus des cher­cheurs qu’ils fassent plus avec moins et qu’ils démontrent des résul­tats dans tous les aspects de leur tra­vail. Mais nous pour­rions nous deman­der pour­quoi sont-ils récom­pen­sés pour le nombre de leurs publi­ca­tions plu­tôt que pour la qua­li­té de leur tra­vail, et nous inquié­ter de savoir s’ils dis­posent réel­le­ment de for­ma­tions, d’un sou­tien et d’infrastructures adé­quats pour leur per­mettre de par­ta­ger leurs tra­vaux. Les chan­ge­ments néces­saires impli­que­ront tous les acteurs de la recherche, des gou­ver­ne­ments et des orga­nismes de finan­ce­ment aux ins­ti­tu­tions de recherche et au per­son­nel de sou­tien à la recherche », conclut Tho­mas Rhys Evans.

Hors com­mu­nau­té scien­ti­fique, des ini­tia­tives com­mencent à poindre : l’UE a lan­cé un appel d’offres pour la répli­ca­tion d’études13, les mai­sons d’édition et les finan­ceurs ren­forcent pro­gres­si­ve­ment leurs exi­gences en matière de trans­pa­rence, les poli­tiques publiques, en Europe notam­ment, pro­meuvent la science ouverte. Mais ces évo­lu­tions res­tent limi­tées, et se jux­ta­posent à la culture domi­nante de l’évaluation scien­ti­fique plus qu’elles ne la rem­placent. Un long che­min reste donc à par­cou­rir pour que le sys­tème sur­monte ses contradictions.

Anne Orliac
1Ioan­ni­dis JPA (2005) Why Most Publi­shed Research Fin­dings Are False. PLoS Med 2(8): e124. https://​doi​.org/​1​0​.​1​3​7​1​/​j​o​u​r​n​a​l​.​p​m​e​d​.​0​0​20124
2Open Science Col­la­bo­ra­tion se pré­sente comme « un réseau infor­mel de cher­cheurs, de pro­fes­sion­nels, de scien­ti­fiques citoyens et d’autres per­sonnes inté­res­sées par la science ouverte, la métas­cience et les bonnes pra­tiques scien­ti­fiques ». EN « A loose net­work of resear­chers, pro­fes­sio­nals, citi­zen scien­tists, and others with an inter­est in open science, metas­cience, and good scien­ti­fic prac­tices. »  http://​osc​.cen​ter​fo​ro​pens​cience​.org/​p​a​g​e​s​/​a​b​o​u​t​.html
3Open Science Col­la­bo­ra­tion, Esti­ma­ting the repro­du­ci­bi­li­ty of psy­cho­lo­gi­cal science. Science349,aac4716(2015). DOI:10.1126/science.aac4716
4La série de publi­ca­tions est publiée par eLife : https://​eli​fes​ciences​.org/​c​o​l​l​e​c​t​i​o​n​s​/​9​b​1​e​8​3​d​1​/​r​e​p​r​o​d​u​c​i​b​i​l​i​t​y​-​p​r​o​j​e​c​t​-​c​a​n​c​e​r​-​b​i​ology
5https://​www​.nature​.com/​c​o​l​l​e​c​t​i​o​n​s​/​i​d​a​j​f​ifcfg
6Une méta-ana­lyse com­bine les résul­tats de plu­sieurs études indé­pen­dantes pour obte­nir une esti­ma­tion glo­bale plus fiable d’un effet.
7Un essai contrô­lé ran­do­mi­sé est une étude expé­ri­men­tale où les par­ti­ci­pants sont répar­tis au hasard entre un groupe rece­vant l’intervention et un groupe témoin, afin de com­pa­rer leurs effets de manière fiable.
8https://​www​.hri​-research​.org/​w​p​-​c​o​n​t​e​n​t​/​u​p​l​o​a​d​s​/​2​0​1​5​/​0​7​/​N​H​M​R​C​-​I​n​f​o​r​m​a​t​i​o​n​-​P​a​p​e​r​-​M​a​r​2​0​1​5.pdf et https://​www​.hri​-research​.org/​w​p​-​c​o​n​t​e​n​t​/​u​p​l​o​a​d​s​/​2​0​1​4​/​0​7​/​H​o​m​e​o​p​a​t​h​y​-​O​v​e​r​v​i​e​w​-​R​e​p​o​r​t.pdf
9Tur­ner EH, Mat­thews AM, Linar­da­tos E, Tell RA, Rosen­thal R. Selec­tive publi­ca­tion of anti­de­pres­sant trials and its influence on appa­rent effi­ca­cy. N Engl J Med. 2008 Jan 17;358(3):252–60. doi : 10.1056/NEJMsa065779. PMID : 18199864.
10Par exemple : Lundh A, Sis­mon­do S, Lex­chin J, Busuioc OA, Bero L. Indus­try spon­sor­ship and research out­come. Cochrane Data­base Syst Rev. 2012 Dec 12;12:MR000033. doi : 10.1002/14651858.MR000033.pub2. Update in : Cochrane Data­base Syst Rev. 2017 Feb 16;2:MR000033. doi : 10.1002/14651858.MR000033.pub3. PMID : 23235689.
11Per­rier Q, Coste A, Dial­lo A, Gui­gui A, Khou­ri C, Rous­tit M. Rela­tion­ship bet­ween the conflicts of inter­est and the results of meta-ana­lyses of homoeo­pa­thy trials. BMJ Evid Based Med. 2023 Nov 22;28(6):426–427. doi : 10.1136/bmjebm-2022–112228. PMID : 37197896.
12Voir en par­ti­cu­lier Col­lins HM. Repli­ca­tion of expe­ri­ments : a socio­lo­gi­cal com­ment. Beha­vio­ral and Brain Sciences. 1978;1(3):391–392. doi:10.1017/S0140525X00075567
13https://​www​.hori​zon​-europe​.gouv​.fr/​p​i​l​l​a​r​-​i​v​-​a​d​v​a​n​c​i​n​g​-​k​n​o​w​l​e​d​g​e​-​e​r​a​-​42402

Le monde expliqué par la science. Une fois par semaine, dans votre boîte mail.

Recevoir la newsletter