π Science et technologies

Crise de la reproductibilité : la science nous tromperait-elle ?

Florian Naudet

psychiatre, professeur de thérapeutique à l'Université de Rennes et membre senior de l'Institut Universitaire de France

Larry Vernon Hedges

professeur titulaire en statistique et science des données, en éducation et politique sociale, de psychologie et de sciences sociales médicales à l’Université de Northwestern

Thomas Rhys Evans

psychologue et professeur en psychologie du travail et en recherche ouverte à l’Université de Greenwich

En bref

En 2005, John Ioannidis montrait que la probabilité qu’un effet rapporté dans un article scientifique soit réel était fortement réduite dans certaines conditions (petits échantillons, effets faibles, nombreux tests et biais méthodologiques).
De nombreuses études ont montré que les biais cognitifs des chercheurs, en particulier les convictions préalables, peuvent influencer leurs résultats.
Les études de reproduction des résultats (réplication) peuvent contribuer à consolider très concrètement le savoir scientifique.
Les initiatives de science ouverte et de transparence restent limitées, et se juxtaposent à la culture dominante de l’évaluation scientifique plus qu’elles ne la remplacent.

C’est le premier des dix critères de la « Gold Standard Science » édictés par l’administration Trump : pour être jugée digne d’éclairer l’action publique et de fonder les décisions réglementaires aux États-Unis, la science devrait être reproductible. Cette exigence intervient alors que plusieurs travaux de grande ampleur montrent que les chercheurs peinent à reproduire les résultats établis par leurs pairs dans de nombreuses disciplines. À quel point faut-il s’en inquiéter ? Est-il raisonnable d’attendre que la science soit toujours reproductible ? Et comment surmonter cette « crise » ?

En 2005, une publication au titre évocateur, « Why Most Published Research Findings Are False¹ », parue dans la revue PLOS Medicine, mettait le feu aux poudres. John Ioannidis y évaluait la fiabilité des études reposant sur l’analyse statistique pour tester des hypothèses – un type d’études très courant dans la recherche empirique. Simulations à l’appui, le chercheur montrait que la probabilité qu’un effet rapporté dans un article scientifique soit réel était fortement réduite dans certaines conditions : petits échantillons de petite taille, effets de petite taille, multiplication des hypothèses testées, méthodes non standardisées, existence de conflits d’intérêt ou compétition importante dans le domaine.

Des confirmations expérimentales massives

Dans les années qui suivent, pour tenter de documenter empiriquement le phénomène, le collectif Open Science Collaboration² se lance dans la reproduction de 100 études expérimentales en psychologie³. Les résultats, publiés en 2015, font l’effet d’une bombe : alors que 97 % des études originales identifiaient un effet « significatif », seules 36 % des réplications en trouvent un, et en moyenne d’ampleur deux fois moindre.

Depuis, les conclusions de John Ioannidis sont confirmées dans de nombreuses disciplines. Une collaboration issue du Center for Open Science et de Science Exchange s’est ainsi penchée sur la biologie du cancer : dans les réplications, les tailles d’effet sont en moyenne 85 % plus petites que les résultats originaux, et seuls 46 % des effets sont reproduits avec succès⁴. Même constat lors d’une initiative couvrant les sciences sociales, politiques, économiques et psychologiques. Publiées via une série d’articles dans Nature⁵ en avril 2026, ses conclusions montrent que, dans la moitié des cas environ, les chercheurs n’ont pas pu répliquer les résultats des études originales.

Le problème s’avère donc profond. Faut-il pour autant en conclure que les connaissances scientifiques jugées définitives dans ces domaines sont toutes suspectes ? Affirmons-le d’emblée et fermement : non. Un effet n’est considéré certain que lorsqu’il a été confirmé par plusieurs preuves de haut niveau, comme des essais randomisés contrôlés effectués dans de bonnes conditions ou des méta-analyses à forte puissance statistique. « Il n’y a pas lieu de douter de l’efficacité des vaccins actuels contre la Covid ou du lien entre cancer du poumon et tabac, pour ne citer que ces exemples, car ils ont été identifiés dans des travaux convergents et issus de différentes disciplines », commente Florian Naudet.

Les éditeurs acceptent par exemple difficilement les études concluant à l’absence d’effet significatif, ce filtre ampute la littérature scientifique de résultats négatifs pourtant nécessaires à la solidité des connaissances.

Reste que le taux d’erreur dans les études publiées est bien plus élevé qu’on le pensait, et que cela mérite attention. Dans un système où les résultats s’accumulent et s’agrègent rapidement, l’enjeu est autant scientifique que collectif : il s’agit de limiter les détours inutiles de la recherche, d’éviter la mobilisation de ressources sur des pistes fragiles, et réduire le risque que des décisions publiques s’appuient sur des résultats défaillants. Souvenons-nous par exemple que des chefs d’États ont promu l’usage de l’hydroxychloroquine contre la Covid-19 sur la base de premières études observationnelles encore fragiles, avant que des essais cliniques plus robustes ne concluent progressivement à l’absence de bénéfice clinique significatif. Certaines études initiales, très médiatisées, ont même été rétractées.

Comme souligné par John Ioannidis, les études à faible niveau de preuve (études de cas isolés, études sur de tout petits échantillons…) sont les plus à risques. « Mais les méta-analyses⁶ ou les essais randomisés⁷, pourtant considérés comme beaucoup plus fiables, peuvent eux aussi être affectés par des biais et des erreurs. Sur l’homéopathie, par exemple, les méta-analyses disponibles dans la littérature ne convergent pas, ce qui doit nous alerter », explique Florian Naudet. Une analyse plus approfondie, synthétisant les méta-analyses et les revues systématiques déjà publiées, effectuée par le Conseil national australien de la santé et de la recherche médicale (NHMRC) a de fait montré la fragilité de l’écrasante majorité des études concluants à un effet de l’homéopathie, et a conclu qu’il n’existe aucun problème de santé pour lequel les preuves de son efficacité sont suffisantes⁸ « De fait, il n’y a aucune raison pour qu’un effet pharmacologique de l’homéopathie soit identifié », poursuit Florian Naudet.

Des pratiques discutables en cause ?

Mais alors, comment minimiser les erreurs ? Une partie de la réponse tient dans la traque des « pratiques discutables », ces opérations non ouvertement frauduleuses mais préjudiciables qui peuvent se glisser à toutes les étapes du travail de recherche, de la formulation de l’hypothèse à l’interprétation et à la publication des résultats.

Elles sont intrinsèquement liées au système actuel de récompense des chercheurs, pour qui publier, c’est exister. Les articles de revues à comité de lecture constituent en effet la vitrine et l’étalon de la compétence, et la pression à publier pèse de tout son poids sur l’ensemble du système de recherche. « Les problèmes de reproductibilité sont davantage liés aux normes et standards attendus qu’à des pratiques frauduleuses délibérées de la part des chercheurs », assure Thomas Rhys Evans.

Les éditeurs acceptent par exemple difficilement les études concluant à l’absence d’effet significatif, ce filtre ampute la littérature scientifique de résultats négatifs pourtant nécessaires à la solidité des connaissances. Pour diverses raisons, des chercheurs peuvent également décider de ne pas publier leurs résultats. « En 2008, il a par exemple été montré qu’une étude sur deux concernant les antidépresseurs n’était pas publiée, et qu’en général, les non-publiées concluent à une absence d’effet⁹ ». L’interprétation des données peut aussi être exagérée pour embellir un résultat ambigu ou faible. Si les travaux manquent de relief, les auteurs peuvent être tentés de faire évoluer leur plan de recherche pour qu’apparaisse un effet significatif (on parle de p‑hacking). À l’inverse, un résultat non prévu peut conduire à modifier a posteriori les hypothèses initiales (HARKing). « La démarche scientifique se veut hypothético-déductive. Mais en pratique, nous sommes beaucoup plus inductifs que nous le pensons », estime Florian Naudet.

De nombreuses études ont également montré que les biais cognitifs des chercheurs, en particulier les convictions préalables, peuvent influencer leurs résultats. Ce peut être également le cas des liens d’intérêts. « Des travaux suggèrent, par exemple, que les méta-analyses sur des matériels et traitements pharmacologiques¹⁰ soutenue par l’industrie, ou les études sur l’homéopathie¹¹ réalisées par des chercheurs qui présentent des liens d’intérêt, concluent plus souvent à des effets positifs que les autres », poursuit le chercheur.

Des pistes d’action du côté de l’open sciences

Face à ces pratiques discutables, quels garde-fous mettre en place ? « Il n’existe pas de solution miracle. La mise à disposition libre des matériels, des données et du code, ou encore le pré-enregistrement peuvent contribuer à améliorer la reproductibilité et la transparence des recherches » explique Thomas Rhys Evans. Le pré-enregistrement consiste à déclarer, avant de collecter les données, ce que l’on compte faire ; dans ces conditions, toute modification ultérieure sur les hypothèses ou la méthode devient plus visible. « La publication des protocoles devrait être imposée par les agences de financement de la recherche ainsi que par les revues scientifiques pour la publication des résultats, comme c’est déjà le cas pour les essais cliniques dans plus de 200 des revues médicales les plus prestigieuses », abonde Larry Vernon Hedges.

« Ces pratiques commencent à se répandre, et nous sommes nombreux à penser que plus de transparence aura des effets bénéfiques, résume Florian Naudet. Mais ces préconisations reposent aujourd’hui plus sur des valeurs que sur des preuves. Est-ce que la communauté va accepter de se plier à ces exigences ? Est-ce qu’elles auront l’effet escompté ? Cela reste à prouver par des études solides. » Et donc à obtenir des financements dédiés.

Une science qui doit apprendre à reproduire

Une petite révolution est aussi à mener dans la manière de concevoir la reproduction. Les initiatives de grande ampleur citées plus haut sont précieuses pour poser des diagnostics globaux, mais leur méthodologie n’est pas toujours adaptée à l’évaluation des travaux au cas par cas. Or, les études de reproduction des résultats (on parle de réplication) peuvent contribuer à consolider très concrètement le savoir scientifique, à condition d’être « bien » conçues. « Des travaux, comme ceux de Harry Collins¹² (NDLR : sociologue des sciences britannique né en 1943) suggèrent que des facteurs subtils influencent souvent la réussite des réplications, et que même les scientifiques impliqués ne savent pas toujours précisément quels éléments méthodologiques sont indispensables pour obtenir une réplication », commente Larry Vernon Hedges.

Au sens strict, il ne suffit pas de se fonder sur une seule étude de réplication pour évaluer de manière robuste un résultat précédent.

Au sens strict, il ne suffit pas, en effet, de se fonder sur une seule étude de réplication pour évaluer de manière robuste un résultat précédent. « Ni même sur plusieurs réplications moyennées et comparées à l’étude initiale. Il faut plusieurs réplications indépendantes, et chacune doit être comparée aux autres. Le point délicat est de déterminer quelles études de réplication sont suffisamment similaires (à l’étude originale et entre elles) pour être pertinentes, et suffisamment indépendantes pour apporter une information nouvelle. »

Une difficulté quand on sait que la découverte et la nouveauté sont très fortement valorisées par les revues, au détriment de la reproduction. « Il y a d’ailleurs également très peu d’incitations et de financements pour des études de reproduction », confirme Florian Naudet.

Un écosystème tout entier à réformer

La réflexivité de la science sur elle-même met donc peu à peu en lumière les forces et les fragilités d’un système tout entier, dont les maisons d’édition, les universités, les financeurs et les politiques ne doivent pas être exclus. « On exige de plus en plus des chercheurs qu’ils fassent plus avec moins et qu’ils démontrent des résultats dans tous les aspects de leur travail. Mais nous pourrions nous demander pourquoi sont-ils récompensés pour le nombre de leurs publications plutôt que pour la qualité de leur travail, et nous inquiéter de savoir s’ils disposent réellement de formations, d’un soutien et d’infrastructures adéquats pour leur permettre de partager leurs travaux. Les changements nécessaires impliqueront tous les acteurs de la recherche, des gouvernements et des organismes de financement aux institutions de recherche et au personnel de soutien à la recherche », conclut Thomas Rhys Evans.

Hors communauté scientifique, des initiatives commencent à poindre : l’UE a lancé un appel d’offres pour la réplication d’études¹³, les maisons d’édition et les financeurs renforcent progressivement leurs exigences en matière de transparence, les politiques publiques, en Europe notamment, promeuvent la science ouverte. Mais ces évolutions restent limitées, et se juxtaposent à la culture dominante de l’évaluation scientifique plus qu’elles ne la remplacent. Un long chemin reste donc à parcourir pour que le système surmonte ses contradictions.