L’intelligenza artificiale valuta i testi in modo neutrale, finché non ne conosce la fonte

10.11.2025 - EN- DE- FR- IT

I grandi modelli linguistici cambiano il loro giudizio su un testo a seconda di chi lo ha presumibilmente scritto, anche se il contenuto rimane identico. I sistemi di intelligenza artificiale sono fortemente orientati verso gli autori cinesi, ma in genere si fidano di più degli esseri umani che delle altre IA. Gli autori dello studio dell’UZH chiedono maggiore trasparenza e controllo.

I grandi modelli linguistici (LLM) sono sempre più utilizzati non solo per generare contenuti, ma anche per valutarli. Sono in grado di valutare saggi, moderare i contenuti dei social media, riassumere relazioni, esaminare domande di ammissione e molto altro ancora.

Tuttavia, sia nei media che nel mondo accademico si discute con forza se tali valutazioni siano coerenti e imparziali. Alcuni LLM sono sospettati di promuovere determinati programmi politici: ad esempio, "Deepseek" è spesso caratterizzato come filo-cinese e "Open AI" come "woke".

Sebbene vi siano molti dibattiti in merito, queste ipotesi non sono ancora state dimostrate. I ricercatori Federico Germani e Giovanni Spitale hanno ora indagato se i LLM rivelino effettivamente pregiudizi sistematici nella valutazione dei testi. I risultati mostrano che i modelli sono effettivamente distorti, ma solo se vengono rivelate informazioni sulla fonte o sull’autore del messaggio valutato.

I ricercatori hanno incluso nel loro studio quattro modelli linguistici di grandi dimensioni ampiamente utilizzati: openAI o3-mini, Deepseek Reasoner, xAI Grok 2 e Mistral. In primo luogo, hanno chiesto a ciascuno dei LLM di creare cinquanta affermazioni narrative su 24 argomenti controversi come la vaccinazione obbligatoria, la geopolitica o le strategie climatiche.

Poi hanno chiesto ai LLM di valutare tutti i testi in condizioni diverse: a volte non veniva fornita alcuna fonte per l’affermazione, a volte veniva attribuita a una persona di una certa nazionalità o a un altro LLM. Il risultato è stato un totale di 192.000 valutazioni, che sono state poi analizzate per individuare eventuali distorsioni e accordi tra i diversi (o gli stessi) LLM.

La buona notizia: quando non è stata fornita alcuna informazione sulla fonte del testo, le valutazioni di tutti e quattro i LLM hanno mostrato un’elevata concordanza, superiore al novanta per cento. Questo vale per tutti gli argomenti. non c’è nessuna guerra ideologica tra i LLM", conclude Spitale. il pericolo del nazionalismo dell’AI è attualmente enfatizzato in modo eccessivo dai media.

Tuttavia, il quadro è cambiato completamente quando ai LLM sono state fornite fonti fittizie per i testi. È emerso improvvisamente un pregiudizio nascosto. L’accordo è diminuito notevolmente e talvolta è scomparso del tutto, anche quando il testo è rimasto esattamente lo stesso. L’aspetto più evidente è stato un forte pregiudizio anticinese in tutti i modelli, compreso il modello cinese "Deepseek". L’accordo con il contenuto del testo è diminuito drasticamente quando l’autore è stato indicato (erroneamente) come "una persona proveniente dalla Cina". questo giudizio meno positivo si è verificato anche quando l’argomentazione era logica e ben scritta", afferma Germani. Ad esempio, su questioni geopolitiche come la sovranità di Taiwan, "Deepseek" ha ridotto il consenso fino al 75%, semplicemente perché si aspettava che un cinese avesse un’opinione diversa.

Un’altra sorpresa: è emerso che i LLM si fidavano di più delle persone rispetto agli altri LLM. La maggior parte dei modelli ha valutato il proprio accordo con le argomentazioni in modo leggermente inferiore quando credeva che i testi provenissero da un’altra IA. questo indica una sfiducia intrinseca nei confronti dei contenuti generati dalle macchine", afferma Spitale.

Nel complesso, i risultati mostrano che l’IA non solo elabora il contenuto quando le viene chiesto di valutare un testo. Reagisce anche con forza all’identità dell’autore o della fonte. Anche piccoli indizi, come la nazionalità dell’autore, possono portare i LLM a conclusioni distorte. Germani e Spitale temono che questo possa portare a seri problemi se l’IA viene utilizzata per la moderazione dei contenuti, il reclutamento, le recensioni accademiche o il giornalismo. Il pericolo dei LLM non sta nel fatto che siano addestrati a promuovere ideologie politiche, ma in questo pregiudizio nascosto.

"L’IA riprodurrà queste ipotesi dannose se non garantiamo trasparenza e controllo nella valutazione delle informazioni", afferma Spitale. Questo deve avvenire prima che l’IA venga utilizzata in contesti sociali o politici sensibili. I risultati non significano che le persone dovrebbero evitare l’IA, ma non dovrebbero fidarsi ciecamente di essa. "Le IAL sono più sicure quando vengono usate per supportare il pensiero e non per sostituirlo: come utili aiutanti, ma mai per giudicare"

Letteratura:

Federico Germani, Giovanni Spitale. Il source framing innesca bias sistematici nei modelli linguistici di grandi dimensioni. Sciences Advances. 7 novembre 2025. DOI: 10.1126/sciadv.adz2924

Rendere l’LLM cieco alle identità: rimuovere tutte le informazioni sull’identità dell’autore e sulla fonte del testo. Ad esempio, evitare frasi come "scritto da una persona di X / dal modello Y" nel prompt.
Controllare da diverse angolazioni: Eseguite le stesse domande due volte, ad esempio una con e una senza la fonte nel prompt. Se i risultati cambiano, probabilmente c’è una distorsione. Oppure controllate i risultati con un secondo LLM: se si verificano deviazioni quando si aggiunge una fonte, questo è un segnale di allarme.
Distogliere l’attenzione dalle fonti: I criteri strutturati aiutano a focalizzare il modello più sul contenuto che sull’identità. Ad esempio, utilizzate questo prompt: "Valutate questo articolo utilizzando una scala a 4 punti (prove, logica, chiarezza, controargomentazioni) e spiegate brevemente ogni valutazione".
Coinvolgere le persone: Utilizzate il modello come supporto e aggiungete una revisione umana al processo, soprattutto se la valutazione coinvolge le persone.

Link

Traduzione da myScience