sienceEtDefiance_replicationCrisis
π Société π Science et technologies
Que signifie « avoir confiance en la science » ?

« La science pâtit d’un manque de reproductibilité des résultats de recherche »

par Valentin Weber, doctorant en sciences cognitives à l'ENS-PSL
Le 23 juin 2021 |
5min. de lecture
Valentin Weber
Valentin Weber
doctorant en sciences cognitives à l'ENS-PSL
En bref
  • Les sciences sociales, mais également la recherche biomédicale et d’autres disciplines scientifiques connaissent actuellement une « crise de la reproductibilité ».
  • 1/3 des résultats des études en sciences sociales seraient ainsi impossibles à reproduire – et donc potentiellement erronés, la reproductibilité étant un déterminant essentiel de la scientificité des travaux.
  • Cette crise serait notamment due au besoin de fournir des résultats novateurs et significatifs pour être publié dans les revues scientifiques prestigieuses.
  • La solution pourrait ainsi être incarnée par les « rapports enregistrés », qui garantissent la publication de l’étude sur la seule base de ses hypothèses de départ, avant même que ses résultats finaux ne soient connus.

La repro­duc­ti­bi­li­té – qui signi­fie que d’autres scien­ti­fiques peuvent obte­nir des résul­tats simi­laires à ceux d’une expé­rience ori­gi­nale s’ils la repro­duisent dans les mêmes condi­tions – est un impé­ra­tif de la méthode scien­ti­fique. En bref, elle signi­fie que les résul­tats d’une expé­rience doivent être les mêmes, qu’importe son auteur. Et la plu­part du temps, c’est le cas. Cepen­dant, dans diverses dis­ci­plines des sciences sociales mais aus­si de la recherche bio­mé­di­cale, cer­tains résul­tats d’études scien­ti­fiques n’ont pas pu être repro­duits ulté­rieu­re­ment par d’autres scien­ti­fiques, ce qui a remis en ques­tion les études ori­gi­nales123.

Connu sous le nom de « crise de la repro­duc­ti­bi­li­té », le pro­blème ne concerne pas seule­ment quelques études publiées dans des revues de bas niveau. Il touche en réa­li­té un tiers des études en sciences sociales, y com­pris celles publiées dans des revues aus­si pres­ti­gieuses que Science ou Nature4. Les études concer­nées com­prennent divers phé­no­mènes bien connus, dont beau­coup ont trou­vé leur place auprès du grand public. Par­mi eux, des concepts lar­ge­ment répan­dus tels que la menace du sté­réo­type5, les biais impli­cites6 ou l’a­mor­çage social7. Ce ne sont là que trois des conclu­sions les plus célèbres fai­sant l’ob­jet de cri­tiques sérieuses, au point qu’elles pour­raient ne pas sur­vivre à un exa­men métho­do­lo­gique plus appro­fon­di. Mais com­ment en sommes-nous arri­vés à cette crise, et que pou­vons-nous faire pour y remédier ?

P‑hacking, HARKing et biais de publication

Deux des pra­tiques de « mau­vaise recherche » les plus cou­rantes, res­pon­sables de résul­tats non repro­duc­tibles, sont dues à des mani­pu­la­tions sta­tis­tiques : le « p‑hacking » et le « HAR­King ». Dans le pre­mier cas, les cher­cheurs modi­fient légè­re­ment leur plan de recherche jus­qu’à ce qu’un résul­tat non signi­fi­ca­tif devienne signi­fi­ca­tif, trans­for­mant ain­si un résul­tat néga­tif en un résul­tat posi­tif. Par exemple, après avoir échoué à trou­ver un effet dans leur expé­rience, les cher­cheurs peuvent modi­fier la façon dont les variables sont mesu­rées, exclure quelques valeurs aber­rantes qui n’a­vaient pas été exclues aupa­ra­vant, ou col­lec­ter par étapes quelques par­ti­ci­pants sup­plé­men­taires, en véri­fiant à chaque fois si les résul­tats sont deve­nus signi­fi­ca­tifs. Toutes ces pra­tiques aug­mentent les chances que les cher­cheurs trouvent un effet, même si celui-ci n’existe pas en réalité. 

De même, dans le cas du HAR­King (qui consiste à émettre des hypo­thèses après la décou­verte des résul­tats), les cher­cheurs trouvent au hasard un effet entre deux variables et émettent ensuite une hypo­thèse, lais­sant croire que c’est le résul­tat auquel ils s’attendaient depuis le début. Pour info : une hypo­thèse est for­mu­lée avant la réa­li­sa­tion d’une expé­rience, et non de manière rétro­ac­tive. À l’heure du big data, il n’est pas dif­fi­cile de com­prendre pour­quoi c’est une mau­vaise idée. Dans un grand ensemble de don­nées conte­nant des cen­taines de variables, cer­taines seront cor­ré­lées entre elles… par hasard. Affir­mer que cette cor­ré­la­tion est signi­fi­ca­tive, et que c’est celle que nous cher­chions à confir­mer donne une vision défor­mée des don­nées réelles.

Dans le monde uni­ver­si­taire, les publi­ca­tions sont l’é­ta­lon-or du suc­cès, mais il est beau­coup plus dif­fi­cile de publier une recherche scien­ti­fique si elle n’a abou­ti sur aucun résul­tat signi­fi­ca­tif. Il existe donc un « biais de publi­ca­tion », parce que si vous sou­hai­tez avoir une car­rière flo­ris­sante dans le champ scien­ti­fique, vous avez inté­rêt à trou­ver des effets ! Bien sûr, cela n’ex­plique pas entiè­re­ment pour­quoi les résul­tats signi­fi­ca­tifs sont si impor­tants. Après tout, les résul­tats d’une expé­rience ne nous disent rien sur la qua­li­té des méthodes uti­li­sées. Si une étude ne trouve pas d’ef­fet, c’est peut-être tout sim­ple­ment que l’ef­fet n’existe pas. Pour­tant, les revues scien­ti­fiques refusent sou­vent d’ac­cep­ter de publier des résul­tats non signi­fi­ca­tifs, parce qu’ils ne prouvent pas l’ab­sence d’un effet autant que les résul­tats signi­fi­ca­tifs peuvent en prou­ver l’existence.

Dans la recherche stan­dard en sciences sociales, le taux accep­table de faux posi­tifs le plus éle­vé est de 5 %, tan­dis que le taux accep­table de faux néga­tifs le plus éle­vé est de 20 %. En d’autres termes, de nom­breuses études scien­ti­fiques n’ont pas une puis­sance suf­fi­sante, c’est-à-dire qu’elles ne comptent pas suf­fi­sam­ment de par­ti­ci­pants pour réduire le taux de faux néga­tifs à un niveau adé­quat. Par consé­quent, les revues peuvent reje­ter des études dont les résul­tats ne sont pas signi­fi­ca­tifs au motif que l’é­tude aurait pu trou­ver l’ef­fet si la taille de l’é­chan­tillon avait été plus importante.

La pression pour obtenir un « scoop »

Toutes les pra­tiques de recherche dou­teuses sus­men­tion­nées – le p‑hacking, le HAR­King (qui est sans doute un sous-type de pira­tage infor­ma­tique), le biais de publi­ca­tion et les ana­lyses insuf­fi­sam­ment puis­santes – sont désor­mais bien connues, mais les pro­blèmes de la crise de la repro­duc­ti­bi­li­té sont plus pro­fonds. L’une des rai­sons pour les­quelles de nom­breuses études clas­siques se sont avé­rées non repro­duc­tibles plu­sieurs décen­nies après leur paru­tion est qu’il existe peu d’in­ci­ta­tions à réa­li­ser des études de repro­duc­ti­bi­li­té. Les car­rières aca­dé­miques se déve­loppent sur la pour­suite d’i­dées nou­velles, notam­ment parce que les revues sont peu inté­res­sées par les tra­vaux repre­nant des études déjà exis­tantes, et qui manquent d’o­ri­gi­na­li­té. Il n’y a donc pas suf­fi­sam­ment d’é­tudes sur la repro­duc­ti­bi­li­té qui per­met­traient, soit de signa­ler les publi­ca­tions ori­gi­nales si leurs résul­tats ne sont pas repro­duits, soit de les confir­mer s’ils le sont.

Une consé­quence connexe de l’ab­sence de repro­duc­tion des études anciennes est qu’il est dif­fi­cile d’es­ti­mer l’am­pleur de la crise de la reproductibilité.

Une consé­quence connexe de l’ab­sence de repro­duc­tion des études anciennes est qu’il est dif­fi­cile d’es­ti­mer l’am­pleur de la crise de la repro­duc­ti­bi­li­té. Mis à part les sciences sociales et la recherche bio­mé­di­cale, quelles sont les autres dis­ci­plines tou­chées par ce phé­no­mène ? Et dans quelle mesure ? Tant que la recherche sur la repro­duc­ti­bi­li­té ne sera pas deve­nue une pra­tique cou­rante, nous ne pour­rons que spé­cu­ler sur les réponses à ces questions.

Bien qu’il soit dif­fi­cile d’i­ma­gi­ner une façon d’in­té­grer plei­ne­ment les études de repro­duc­ti­bi­li­té dans le sys­tème de recherche actuel, les « rap­ports enre­gis­trés » pour­raient appor­ter une solu­tion aux quatre mau­vaises pra­tiques de recherche men­tion­nées ci-des­sus. Contrai­re­ment aux articles de jour­naux clas­siques, les rap­ports enre­gis­trés sont accep­tés pour publi­ca­tion avant même que les don­nées ne soient col­lec­tées. Le pro­blème du biais de publi­ca­tion est donc réso­lu, puisque les résul­tats ne peuvent pas influen­cer la déci­sion de publier ou non l’é­tude dans la revue. Le p‑hacking et le HAR­King sont éga­le­ment peu sus­cep­tibles de se pro­duire puisque les cher­cheurs doivent spé­ci­fier à l’a­vance quelles hypo­thèses seront tes­tées et com­ment elles le seront, et que toute dévia­tion du plan de recherche doit être jus­ti­fiée de manière extra­or­di­naire. Enfin, les rap­ports enre­gis­trés ont géné­ra­le­ment une puis­sance plus adé­quate que les articles de jour­naux nor­maux, car les méthodes (y com­pris la taille de l’é­chan­tillon pré­vu) sont exa­mi­nées avant la réa­li­sa­tion de l’étude.

Une science plus repro­duc­tible condui­rait-elle à une plus grande confiance du public dans les résul­tats scien­ti­fiques ? Nous ne le savons pas, mais c’est pro­bable. Si la com­mu­nau­té scien­ti­fique accepte que cer­tains résul­tats de recherche sont effec­ti­ve­ment dou­teux et tente d’a­mé­lio­rer ces lacunes, les scep­tiques seront peut-être moins réti­cents à accep­ter ses conclu­sions. Nous avons cer­tai­ne­ment encore un long che­min à par­cou­rir avant que la crise ne s’es­tompe, mais la pro­mo­tion des com­pé­tences métho­do­lo­giques, l’a­dop­tion des rap­ports enre­gis­trés comme modèle de publi­ca­tion et l’in­ci­ta­tion à la recherche sur la repro­duc­ti­bi­li­té sont des pre­miers pas pro­met­teurs dans la bonne direction.

1Open Science Col­la­bo­ra­tion (2015). Esti­ma­ting the repro­du­ci­bi­li­ty of psy­cho­lo­gi­cal science. Science, 349(6251), aac4716–aac4716.
2Freed­man, L. P., Cock­burn, I. M., & Sim­coe, T. S. (2015). The eco­no­mics of repro­du­ci­bi­li­ty in pre­cli­ni­cal research. PLoS Bio­lo­gy, 13(6), e1002165. doi:10.1371/journal.pbio.1002165.
3Ioan­ni­dis, J. P. (2005). Why most publi­shed research fin­dings are false. PLoS Med. 2, e124.
4Came­rer, C. F., Dre­ber, A., Holz­meis­ter, F., Ho, T.-H., Huber, J., Jahan­nes­son, M., … Wu, H. (2018). Eva­lua­ting the repli­ca­bi­li­ty of social science expe­ri­ments in Nature and Science bet­ween 2010 and 2015. Nature Human Beha­vior, 2, 637–644.
5Flore, P. C., Mul­der, J., & Wicherts, J. M. (2019). The influence of gen­der ste­reo­type threat on mathe­ma­tics test scores of Dutch high school stu­dents : A regis­te­red report. Com­pre­hen­sive Results in Social Psy­cho­lo­gy, 3, 140–174. https://​doi​.org/ 10.1080/23743603.2018.1559647
6Schim­mack, U. (2020, Decem­ber 13). Defund Impli­cit Bias Research. Repli­ca­bi­li­ty Index. https://​repli​ca​tio​nin​dex​.com/​c​a​t​e​g​o​r​y​/​i​m​p​l​i​c​i​t​-​bias/.
7Chi­vers, T. (2019). What’s next for psychology’s embat­tled field of social pri­ming. Nature, 576(7786), 200–202. doi:10.1038/d41586-019- 03755–2

Soutenez une information fiable basée sur la méthode scientifique.

Faire un don