L’IA générative est-elle un gain pour la recherche ?
- Les scientifiques testent de nos jours des méthodes pour intégrer les grands modèles de langage (LLM) dans les pratiques de recherche, ce qui pose question.
- Les LLM sont performants pour détecter la tonalité d’un article ou d’un commentaire, moins pour détecter des formes rhétoriques.
- L’utilisation la plus courante des LLM en sciences sociales est la classification de textes, qui modifie les façons de faire de la recherche.
- Des risques existent avec les LLM, comme l’impossibilité de répliquer de travaux, le manque de sécurité des données ou l’usage de données de mauvaises qualités.
- Il est indispensable de réfléchir aux apports de l’IA pour la recherche, par le biais d’une méthode scientifique.
Vous co-signez un article scientifique consacré aux dangers de l’intelligence artificielle (IA) pour la recherche. Pourquoi avoir mené de tels travaux ?
Arnault Chatelain. Aujourd’hui, les scientifiques tâtonnent avec les grands modèles de langage (LLM en anglais), qui constituent une part importante de l’IA. Tout le monde teste différentes méthodes pour les intégrer dans les pratiques de recherche, mais de nombreuses interrogations subsistent. Pour certaines applications, ces LLM sont très performants. Par exemple pour détecter la tonalité d’un article ou d’un commentaire. En revanche, ils deviennent beaucoup moins performants pour des tâches plus compliquées, comme la détection de formes rhétoriques.
Comment les scientifiques utilisent-ils l’IA pour leurs travaux ?
Je ne vais commenter que le champ disciplinaire que je connais, c’est-à-dire les sciences sociales et plus spécifiquement l’économie, la sociologie et la science politique. Les scientifiques utilisent surtout les LLM pour les assister et travailler de grandes quantités de textes. La première application est assez générique : reformater des textes, réorganiser des tableaux de données, écrire du code informatique, etc. L’utilisation de chatbots de type ChatGPT permet de gagner du temps, comme le font de nombreux utilisateurs en dehors de la recherche scientifique.
L’utilisation la plus courante des LLM en sciences sociales est la classification de textes. Auparavant, l’étude de grandes quantités de texte était faite à la main, un processus très chronophage. Aujourd’hui, il est possible d’annoter manuellement uniquement un échantillon de texte, puis d’étendre à un corpus de textes grâce aux modèles de langage. Dans notre équipe de recherche en sciences sociales computationnelles, nous tentons de détecter l’utilisation de formes rhétoriques rares dans la presse. Nous annotons une centaine d’articles, et nous pouvons ensuite étendre nos annotations à tout le corpus de presse. Cela nous donne une vue d’ensemble qu’il aurait été impossible de produire sans l’IA. En ce sens cet outil augmente nos possibilités et modifie nos façons de faire de la recherche.
Quels dangers identifiez-vous à utiliser l’IA pour la recherche scientifique ?
Il y a tout d’abord un risque concernant la réplicabilité. La réplicabilité des résultats est un indispensable de la méthode scientifique. Or les modèles propriétaires [N.D.L.R. : détenus par des entreprises privées] évoluent et peuvent disparaitre du jour au lendemain, comme c’est le cas pour d’anciennes versions de ChatGPT3.5. Il est alors impossible de répliquer les travaux.
Un autre danger concerne la sécurité des données. Pour les scientifiques qui travaillent sur des données sensibles, comme des données de santé, il est important de ne pas partager les données avec des entreprises privées. La tentation peut toutefois être forte en l’absence d’alternative non propriétaire facile d’accès. Pour éviter tout risque, il serait alors préférable d’utiliser des modèles libres d’accès téléchargés localement, mais cela nécessite des infrastructures adéquates.
Enfin, j’observe que les modèles s’appuient sur de grandes quantités de données, parfois de mauvaise qualité. Nous maitrisons encore mal le type de biais que celles-ci peuvent produire au sein des modèles.
Quelles sont les causes de ces limites ?
Avec les modèles propriétaires, le problème est justement que nous n’avons pas la main sur le modèle que nous utilisons. Un autre enjeu vient du fait que nous ne comprenons pas entièrement comment les LLM fonctionnent, qu’ils soient propriétaires ou en libre-accès. Même lorsque nous avons accès au code, nous ne sommes pas en mesure d’expliquer les résultats obtenus par une IA. Il a été démontré qu’en répétant les mêmes tâches sur le même modèle pendant plusieurs mois, les résultats varient beaucoup et ne peuvent pas être reproduits1.
Suite à une série d’articles affirmant que les IA génératives pourraient répondre à des sondages en lieu et place des humains, mes collègues viennent de mettre en évidence une variabilité importante et imprévisible lors de simulations de réponses à un questionnaire d’opinion2. Ils qualifient ce problème de « biais machine ».
Et concernant le danger des IA propriétaires, n’est-il pas possible de contourner le problème en travaillant avec des IA en libre-accès ?
Bien sûr, il est possible de répliquer une expérience grâce aux modèles open-source, même si cela ne résout pas le problème de l’explicabilité évoqué. Nous pouvons par exemple envisager d’utiliser par défaut des modèles en libre-accès, et d’employer des modèles propriétaires uniquement s’ils sont indispensables, comme le proposent certains3. Un article publié en 2024 pointe l’intérêt de créer une infrastructure en libre-accès pour la recherche en sociologie afin d’y remédier4. En revanche, cela pose la question de la démultiplication des modèles, de l’espace de stockage nécessaire et du coût environnemental. Cela requiert aussi des infrastructures adaptées et faciles d’accès.
Existe-t-il d’autres garde-fous pour utiliser correctement l’IA en recherche ?
Il y a un réel intérêt à mieux former les scientifiques : comment fonctionnent les modèles d’IA, leurs limites, comment bien s’en servir, etc. Je pense qu’il faut sensibiliser les scientifiques aux dangers de l’IA, sans pour autant la diaboliser car elle peut être utile pour leurs travaux.
Les scientifiques ne se sont-ils pas posés ces questions dès l’avènement des modèles de langage ?
Les questions relatives aux dangers des LLM pour la recherche, ou les bonnes pratiques à mettre en œuvre, sont assez récentes. La première vague de travaux a été marquée par l’enthousiasme de la communauté scientifique en sciences sociales. C’est ce qui nous a poussé à publier notre article.
Aujourd’hui, il y a un intérêt grandissant pour l’évaluation des modèles de langage, mais c’est une problématique complexe. Jusqu’ici, c’est surtout la communauté scientifique en informatique qui s’est chargée de tester la performance des modèles, notamment parce que cela requiert une certaine expertise technique. Cette année, j’ai travaillé dans une équipe composée d’informaticiens, linguistes et sociologues pour mieux considérer les attentes des sciences sociales dans les critères d’évaluations de l’IA5. Cela passe notamment par une plus grande attention portée à la nature des données de test utilisées. Est-ce qu’une bonne performance sur des tweets garantit une performance similaire sur des articles de presse ou des discours ?
Quant à la réplicabilité des études, c’est une crise qui était déjà présente en sciences sociales. L’IA vient renforcer les discussions autour de ce sujet.
Faut-il arrêter ou continuer d’utiliser l’IA en recherche ?
Je pense qu’il est indispensable de réfléchir aux apports de l’IA. Est-ce un réel gain pour la recherche ? Cela passe par une mesure fiable, s’appuyant sur la méthode scientifique, de la robustesse des modèles de langage. Autre prérequis : mettre en place un cadre rigoureux d’utilisation de l’IA pour la recherche. Enfin, il faut se poser la question de la dépendance de la communauté scientifique à des acteurs privés. Cela comporte de nombreux risques, notamment sur la stratégie de recherche. Si les scientifiques se concentrent sur des travaux pour lesquels l’IA pourra les aider, cela oriente alors leurs recherches.