sienceEtDefiance_replicationCrisis
π Science et technologies π Société
Que signifie « avoir confiance en la science » ?

« La science pâtit d’un manque de reproductibilité des résultats de recherche »

Valentin Weber, doctorant en sciences cognitives à l'ENS-PSL
Le 23 juin 2021 |
5 mins de lecture
4
« La science pâtit d’un manque de reproductibilité des résultats de recherche »
Valentin Weber
Valentin Weber
doctorant en sciences cognitives à l'ENS-PSL
En bref
  • Les sciences sociales, mais également la recherche biomédicale et d’autres disciplines scientifiques connaissent actuellement une « crise de la reproductibilité ».
  • 1/3 des résultats des études en sciences sociales seraient ainsi impossibles à reproduire – et donc potentiellement erronés, la reproductibilité étant un déterminant essentiel de la scientificité des travaux.
  • Cette crise serait notamment due au besoin de fournir des résultats novateurs et significatifs pour être publié dans les revues scientifiques prestigieuses.
  • La solution pourrait ainsi être incarnée par les « rapports enregistrés », qui garantissent la publication de l’étude sur la seule base de ses hypothèses de départ, avant même que ses résultats finaux ne soient connus.

La repro­ductibil­ité – qui sig­ni­fie que d’autres sci­en­tifiques peu­vent obtenir des résul­tats sim­i­laires à ceux d’une expéri­ence orig­i­nale s’ils la repro­duisent dans les mêmes con­di­tions – est un impératif de la méth­ode sci­en­tifique. En bref, elle sig­ni­fie que les résul­tats d’une expéri­ence doivent être les mêmes, qu’importe son auteur. Et la plu­part du temps, c’est le cas. Cepen­dant, dans divers­es dis­ci­plines des sci­ences sociales mais aus­si de la recherche bio­médi­cale, cer­tains résul­tats d’études sci­en­tifiques n’ont pas pu être repro­duits ultérieure­ment par d’autres sci­en­tifiques, ce qui a remis en ques­tion les études orig­i­nales123.

Con­nu sous le nom de « crise de la repro­ductibil­ité », le prob­lème ne con­cerne pas seule­ment quelques études pub­liées dans des revues de bas niveau. Il touche en réal­ité un tiers des études en sci­ences sociales, y com­pris celles pub­liées dans des revues aus­si pres­tigieuses que Sci­ence ou Nature4. Les études con­cernées com­pren­nent divers phénomènes bien con­nus, dont beau­coup ont trou­vé leur place auprès du grand pub­lic. Par­mi eux, des con­cepts large­ment répan­dus tels que la men­ace du stéréo­type5, les biais implicites6 ou l’amorçage social7. Ce ne sont là que trois des con­clu­sions les plus célèbres faisant l’ob­jet de cri­tiques sérieuses, au point qu’elles pour­raient ne pas sur­vivre à un exa­m­en méthodologique plus appro­fon­di. Mais com­ment en sommes-nous arrivés à cette crise, et que pou­vons-nous faire pour y remédier ?

P‑hacking, HARK­ing et biais de publication

Deux des pra­tiques de « mau­vaise recherche » les plus courantes, respon­s­ables de résul­tats non repro­ductibles, sont dues à des manip­u­la­tions sta­tis­tiques : le « p‑hacking » et le « HARK­ing ». Dans le pre­mier cas, les chercheurs mod­i­fient légère­ment leur plan de recherche jusqu’à ce qu’un résul­tat non sig­ni­fi­catif devi­enne sig­ni­fi­catif, trans­for­mant ain­si un résul­tat négatif en un résul­tat posi­tif. Par exem­ple, après avoir échoué à trou­ver un effet dans leur expéri­ence, les chercheurs peu­vent mod­i­fi­er la façon dont les vari­ables sont mesurées, exclure quelques valeurs aber­rantes qui n’avaient pas été exclues aupar­a­vant, ou col­lecter par étapes quelques par­tic­i­pants sup­plé­men­taires, en véri­fi­ant à chaque fois si les résul­tats sont devenus sig­ni­fi­cat­ifs. Toutes ces pra­tiques aug­mentent les chances que les chercheurs trou­vent un effet, même si celui-ci n’ex­iste pas en réalité. 

De même, dans le cas du HARK­ing (qui con­siste à émet­tre des hypothès­es après la décou­verte des résul­tats), les chercheurs trou­vent au hasard un effet entre deux vari­ables et émet­tent ensuite une hypothèse, lais­sant croire que c’est le résul­tat auquel ils s’attendaient depuis le début. Pour info : une hypothèse est for­mulée avant la réal­i­sa­tion d’une expéri­ence, et non de manière rétroac­tive. À l’heure du big data, il n’est pas dif­fi­cile de com­pren­dre pourquoi c’est une mau­vaise idée. Dans un grand ensem­ble de don­nées con­tenant des cen­taines de vari­ables, cer­taines seront cor­rélées entre elles… par hasard. Affirmer que cette cor­réla­tion est sig­ni­fica­tive, et que c’est celle que nous cher­chions à con­firmer donne une vision défor­mée des don­nées réelles.

Dans le monde uni­ver­si­taire, les pub­li­ca­tions sont l’é­talon-or du suc­cès, mais il est beau­coup plus dif­fi­cile de pub­li­er une recherche sci­en­tifique si elle n’a abouti sur aucun résul­tat sig­ni­fi­catif. Il existe donc un « biais de pub­li­ca­tion », parce que si vous souhaitez avoir une car­rière floris­sante dans le champ sci­en­tifique, vous avez intérêt à trou­ver des effets ! Bien sûr, cela n’ex­plique pas entière­ment pourquoi les résul­tats sig­ni­fi­cat­ifs sont si impor­tants. Après tout, les résul­tats d’une expéri­ence ne nous dis­ent rien sur la qual­ité des méth­odes util­isées. Si une étude ne trou­ve pas d’ef­fet, c’est peut-être tout sim­ple­ment que l’ef­fet n’ex­iste pas. Pour­tant, les revues sci­en­tifiques refusent sou­vent d’ac­cepter de pub­li­er des résul­tats non sig­ni­fi­cat­ifs, parce qu’ils ne prou­vent pas l’ab­sence d’un effet autant que les résul­tats sig­ni­fi­cat­ifs peu­vent en prou­ver l’existence.

Dans la recherche stan­dard en sci­ences sociales, le taux accept­able de faux posi­tifs le plus élevé est de 5 %, tan­dis que le taux accept­able de faux négat­ifs le plus élevé est de 20 %. En d’autres ter­mes, de nom­breuses études sci­en­tifiques n’ont pas une puis­sance suff­isante, c’est-à-dire qu’elles ne comptent pas suff­isam­ment de par­tic­i­pants pour réduire le taux de faux négat­ifs à un niveau adéquat. Par con­séquent, les revues peu­vent rejeter des études dont les résul­tats ne sont pas sig­ni­fi­cat­ifs au motif que l’é­tude aurait pu trou­ver l’ef­fet si la taille de l’échan­til­lon avait été plus importante.

La pres­sion pour obtenir un « scoop »

Toutes les pra­tiques de recherche dou­teuses sus­men­tion­nées – le p‑hacking, le HARK­ing (qui est sans doute un sous-type de piratage infor­ma­tique), le biais de pub­li­ca­tion et les analy­ses insuff­isam­ment puis­santes – sont désor­mais bien con­nues, mais les prob­lèmes de la crise de la repro­ductibil­ité sont plus pro­fonds. L’une des raisons pour lesquelles de nom­breuses études clas­siques se sont avérées non repro­ductibles plusieurs décen­nies après leur paru­tion est qu’il existe peu d’inci­ta­tions à réalis­er des études de repro­ductibil­ité. Les car­rières académiques se dévelop­pent sur la pour­suite d’idées nou­velles, notam­ment parce que les revues sont peu intéressées par les travaux reprenant des études déjà exis­tantes, et qui man­quent d’o­rig­i­nal­ité. Il n’y a donc pas suff­isam­ment d’é­tudes sur la repro­ductibil­ité qui per­me­t­traient, soit de sig­naler les pub­li­ca­tions orig­i­nales si leurs résul­tats ne sont pas repro­duits, soit de les con­firmer s’ils le sont.

Une con­séquence con­nexe de l’ab­sence de repro­duc­tion des études anci­ennes est qu’il est dif­fi­cile d’es­timer l’am­pleur de la crise de la repro­ductibil­ité. Mis à part les sci­ences sociales et la recherche bio­médi­cale, quelles sont les autres dis­ci­plines touchées par ce phénomène ? Et dans quelle mesure ? Tant que la recherche sur la repro­ductibil­ité ne sera pas dev­enue une pra­tique courante, nous ne pour­rons que spéculer sur les répons­es à ces questions.

Bien qu’il soit dif­fi­cile d’imag­in­er une façon d’in­té­gr­er pleine­ment les études de repro­ductibil­ité dans le sys­tème de recherche actuel, les « rap­ports enreg­istrés » pour­raient apporter une solu­tion aux qua­tre mau­vais­es pra­tiques de recherche men­tion­nées ci-dessus. Con­traire­ment aux arti­cles de jour­naux clas­siques, les rap­ports enreg­istrés sont accep­tés pour pub­li­ca­tion avant même que les don­nées ne soient col­lec­tées. Le prob­lème du biais de pub­li­ca­tion est donc résolu, puisque les résul­tats ne peu­vent pas influ­encer la déci­sion de pub­li­er ou non l’é­tude dans la revue. Le p‑hacking et le HARK­ing sont égale­ment peu sus­cep­ti­bles de se pro­duire puisque les chercheurs doivent spé­ci­fi­er à l’a­vance quelles hypothès­es seront testées et com­ment elles le seront, et que toute dévi­a­tion du plan de recherche doit être jus­ti­fiée de manière extra­or­di­naire. Enfin, les rap­ports enreg­istrés ont générale­ment une puis­sance plus adéquate que les arti­cles de jour­naux nor­maux, car les méth­odes (y com­pris la taille de l’échan­til­lon prévu) sont exam­inées avant la réal­i­sa­tion de l’étude.

Une sci­ence plus repro­ductible con­duirait-elle à une plus grande con­fi­ance du pub­lic dans les résul­tats sci­en­tifiques ? Nous ne le savons pas, mais c’est prob­a­ble. Si la com­mu­nauté sci­en­tifique accepte que cer­tains résul­tats de recherche sont effec­tive­ment dou­teux et tente d’amélior­er ces lacunes, les scep­tiques seront peut-être moins réti­cents à accepter ses con­clu­sions. Nous avons cer­taine­ment encore un long chemin à par­courir avant que la crise ne s’estompe, mais la pro­mo­tion des com­pé­tences méthodologiques, l’adop­tion des rap­ports enreg­istrés comme mod­èle de pub­li­ca­tion et l’inci­ta­tion à la recherche sur la repro­ductibil­ité sont des pre­miers pas promet­teurs dans la bonne direction.

1Open Sci­ence Col­lab­o­ra­tion (2015). Esti­mat­ing the repro­ducibil­i­ty of psy­cho­log­i­cal sci­ence. Sci­ence, 349(6251), aac4716–aac4716.
2Freed­man, L. P., Cock­burn, I. M., & Sim­coe, T. S. (2015). The eco­nom­ics of repro­ducibil­i­ty in pre­clin­i­cal research. PLoS Biol­o­gy, 13(6), e1002165. doi:10.1371/journal.pbio.1002165.
3Ioan­ni­dis, J. P. (2005). Why most pub­lished research find­ings are false. PLoS Med. 2, e124.
4Camer­er, C. F., Dreber, A., Holzmeis­ter, F., Ho, T.-H., Huber, J., Jahan­nes­son, M., … Wu, H. (2018). Eval­u­at­ing the replic­a­bil­i­ty of social sci­ence exper­i­ments in Nature and Sci­ence between 2010 and 2015. Nature Human Behav­ior, 2, 637–644.
5Flo­re, P. C., Mul­der, J., & Wicherts, J. M. (2019). The influ­ence of gen­der stereo­type threat on math­e­mat­ics test scores of Dutch high school stu­dents: A reg­is­tered report. Com­pre­hen­sive Results in Social Psy­chol­o­gy, 3, 140–174. https://​doi​.org/ 10.1080/23743603.2018.1559647
6Schim­mack, U. (2020, Decem­ber 13). Defund Implic­it Bias Research. Replic­a­bil­i­ty Index. https://​repli​ca​tionin​dex​.com/​c​a​t​e​g​o​r​y​/​i​m​p​l​i​c​i​t​-​bias/.
7Chivers, T. (2019). What’s next for psychology’s embat­tled field of social prim­ing. Nature, 576(7786), 200–202. doi:10.1038/d41586-019- 03755–2

Auteurs

Valentin Weber

Valentin Weber

doctorant en sciences cognitives à l'ENS-PSL

Titulaire d'une licence en psychologie, Valentin Weber prépare actuellement son doctorat en sciences cognitives à l'ENS (PSL). Ses intérêts de recherche se situent entre la philosophie, les neurosciences et la psychologie et ses travaux actuels portent sur la mémoire iconique et d'autres questions de philosophie des sciences cognitives. Auparavant, il a étudié les méthodes psychologiques et a travaillé sur des modèles psychométriques.