L’IA évalue les textes de manière neutre - jusqu’à ce qu’elle connaisse la source

10 Novembre 2025 - EN- DE- FR - IT

Les grands modèles linguistiques modifient leur jugement sur un texte en fonction de l’auteur présumé, même si le contenu reste identique. Les systèmes d’IA sont fortement biaisés par rapport aux auteurs chinois, mais font généralement plus confiance aux humains qu’aux autres IA. Les auteurs de l’étude de l’UZH demandent plus de transparence et de contrôle.

Les grands modèles linguistiques (LLM) sont de plus en plus utilisés non seulement pour générer des contenus, mais aussi pour les évaluer. Ils peuvent noter des dissertations, modérer des contenus de médias sociaux, résumer des rapports, examiner des candidatures et bien d’autres choses encore.

Toutefois, il existe - aussi bien dans les médias que dans le monde universitaire - de vives discussions sur la question de savoir si ces évaluations sont cohérentes et impartiales. Certains LLM sont soupçonnés de promouvoir certains agendas politiques : ainsi, ’Deepseek’ est souvent caractérisé comme étant pro-chinois et ’Open AI’ comme étant ’woke’.

Bien que l’on en discute beaucoup, ces suppositions n’ont jusqu’à présent pas été prouvées. Les chercheurs Federico Germani et Giovanni Spitale ont maintenant examiné si les LLMs révèlent effectivement des préjugés systématiques lors de l’évaluation de textes. Les résultats prouvent que les modèles sont effectivement biaisés - mais uniquement lorsque des informations sur la source ou l’auteur du message évalué sont révélées.

Les chercheurs ont inclus dans leur étude quatre grands modèles linguistiques largement répandus : ’OpenAI o3-mini’, ’Deepseek Reasoner’, ’xAI Grok 2’ et ’Mistral’. Ils ont d’abord demandé à chacun des LLM de rédiger cinquante déclarations narratives sur 24 sujets controversés tels que la vaccination obligatoire, la géopolitique ou les stratégies climatiques.

Ensuite, ils ont demandé aux LLM d’évaluer tous les textes dans différentes conditions : parfois, aucune source n’était indiquée pour la déclaration, parfois elle était attribuée à une personne d’une certaine nationalité ou à un autre LLM. Cela a donné lieu à un total de 192 000 évaluations, qui ont ensuite été analysées pour déterminer la partialité et la concordance entre les différents (ou les mêmes) LLM.

La bonne nouvelle : lorsqu’aucune information n’était donnée sur la source du texte, les évaluations des quatre LLM montraient une forte concordance, supérieure à quatre-vingt-dix pour cent. Cela s’appliquait de la même manière à tous les thèmes. il n’y a pas de guerre idéologique entre les LLM’, conclut Spitale. le danger du nationalisme de l’IA est actuellement surestimé dans les médias.

L’image changeait toutefois complètement lorsque des sources fictives étaient citées aux LLM pour les textes. Un parti pris caché apparaissait alors soudainement. La concordance diminuait considérablement et disparaissait parfois même complètement, même si le texte restait exactement le même. Le plus frappant était un fort biais anti-chinois dans tous les modèles, y compris le propre ’Deepseek’ de la Chine. La concordance avec le contenu du texte a fortement diminué lorsque ’une personne de Chine’ a été (faussement) indiquée comme auteur. cette évaluation moins positive s’est produite même lorsque l’argumentation était logique et bien écrite", explique Germani. Un exemple : pour des sujets géopolitiques comme la souveraineté de Taiwan, ’Deepseek’ a réduit le consensus jusqu’à 75 pour cent - simplement parce qu’il s’attendait à ce qu’une personne chinoise exprime une opinion différente.

Autre surprise : il s’est avéré que les LLM faisaient davantage confiance aux personnes qu’aux autres LLM. La plupart des modèles ont évalué leur accord avec les arguments un peu plus bas lorsqu’ils pensaient que les textes provenaient d’une autre IA. cela indique une méfiance intégrée à l’égard du contenu généré par la machine’, explique Spitale.

Dans l’ensemble, les résultats montrent que l’IA ne traite pas seulement le contenu lorsqu’elle doit évaluer un texte. Elle réagit aussi fortement à l’identité de l’auteur ou de la source. Même de petites indications comme la nationalité de l’auteur peuvent amener les LLM à tirer des conclusions biaisées. Germani et Spitale craignent que cela ne pose de sérieux problèmes si l’IA est utilisée pour la modération de contenus, le recrutement de personnel, les revues académiques ou le journalisme. Le danger des LLM ne réside pas dans le fait qu’ils sont formés pour promouvoir des idéologies politiques, mais dans ce parti pris caché.

"L’IA reproduira de telles hypothèses néfastes si nous ne garantissons pas la transparence et le contrôle de l’évaluation des informations", explique Spitale. Selon lui, cela doit être fait avant que l’IA ne soit utilisée dans des contextes sociaux ou politiques sensibles. Ces résultats ne signifient pas que les gens doivent éviter l’IA, mais qu’ils ne doivent pas lui faire une confiance aveugle. "Les LLM sont plus sûrs lorsqu’ils sont utilisés pour aider à la réflexion et non pour la remplacer : comme des aides utiles, mais jamais pour juger"

Littérature :

Federico Germani, Giovanni Spitale. Source framing triggers systematic bias in large language models. Sciences Advances. 7 novembre 2025. DOI : 10.1126/sciadv.adz2924

Rendez le LLM aveugle aux identités : supprimez toutes les informations relatives à l’identité de l’auteur et à la source du texte. Dans le prompt, évitez par exemple les formulations du type ’écrit par une personne de X / par modèle Y’.
Vérifiez sous différents angles : Faites passer deux fois les mêmes questions, par exemple une fois avec et une fois sans indication de la source dans l’invite. Si les résultats changent, il y a probablement un biais. Ou vérifiez les résultats avec un deuxième LLM : si des écarts apparaissent lors de l’ajout d’une source, c’est un signal d’alarme.
Détournez l’attention des sources : Des critères structurés aident à orienter le modèle davantage sur le contenu que sur l’identité. Utilisez par exemple cette invite : ’Évaluez ceci sur une échelle de 4 points (preuves, logique, clarté, contre-arguments) et expliquez brièvement chaque évaluation’.
Impliquez les personnes : Utilisez le modèle comme support et ajoutez une vérification humaine au processus - en particulier lorsqu’une évaluation concerne des personnes.

Liens

Traduction par myScience