L’intelligenza artificiale funziona in inglese?

- EN- DE- FR- IT
 (Immagine: Pixabay CC0)
(Immagine: Pixabay CC0)

Gli scienziati dell’EPFL hanno dimostrato che i modelli linguistici di grandi dimensioni sembrano utilizzare internamente l’inglese anche quando viene chiesto loro di farlo in un’altra lingua, il che potrebbe avere conseguenze in termini di pregiudizi linguistici e culturali.

I modelli linguistici di grandi dimensioni (LLM), come ChatGPT di Open AI e Gemini di Google, hanno conquistato il mondo e sorprendono per la loro capacità di comprendere gli utenti e di rispondere loro con un linguaggio apparentemente naturale.

Sebbene sia possibile interagire con questi LLM in qualsiasi lingua, essi vengono addestrati con centinaia di miliardi di parametri testuali, principalmente in inglese. Alcuni hanno ipotizzato che la maggior parte dell’elaborazione interna avvenga in inglese, per poi tradurre nella lingua di destinazione all’ultimo momento. Ma fino ad oggi le prove di questa ipotesi erano scarse.

Test sui lama

I ricercatori del Data Science Laboratory (DLAB) della Facoltà di Informatica e Comunicazione dell’EPFL hanno studiato l’open source LLM Llama-2 (un modello di linguaggio AI di grandi dimensioni sviluppato da Meta) per cercare di determinare quali lingue fossero utilizzate in quali fasi della catena di elaborazione.

"I modelli linguistici di grandi dimensioni vengono addestrati per prevedere la parola successiva. Per farlo, mappano ogni parola su un vettore di numeri, cioè su un punto di dati multidimensionale. Ad esempio, l’articolo ’il’ si troverà sempre esattamente nella stessa coordinata numerica", spiega il professor Robert West, responsabile del DLAB.

"I modelli mettono insieme circa 80 strati di blocchi di calcolo identici, ognuno dei quali trasforma un vettore che rappresenta una parola in un altro vettore. Al termine di questa sequenza di 80 trasformazioni, si ottiene un vettore che rappresenta la parola successiva. Il numero di calcoli è determinato dal numero di strati di blocchi di calcolo. Più calcoli ci sono, più il modello è potente e più è probabile che la parola successiva sia corretta".

Come spiegato nella pubblicazione preliminare Do Llamas Work in English? On the Latent Language of Multilingual Transformers , Robert West e il suo team hanno costretto il modello a rispondere dopo ogni strato ogni volta che cercava di prevedere la parola successiva, invece di lasciargli eseguire i calcoli dai suoi 80 strati. In questo modo hanno potuto vedere quale parola il modello avrebbe previsto in quel momento. Hanno impostato diversi compiti, come chiedere al modello di tradurre una serie di parole francesi in cinese.

"Gli abbiamo dato una parola francese, poi la traduzione cinese, un’altra parola francese e la traduzione cinese, e così via, in modo che il modello sapesse che doveva tradurre la parola francese in cinese. Idealmente, il modello dovrebbe dare una probabilità del 100% per la parola cinese. Ma quando lo abbiamo costretto a fare previsioni prima dell’ultimo livello, abbiamo notato che la maggior parte delle volte ha previsto la traduzione inglese della parola francese, anche se l’inglese non compariva da nessuna parte in questo compito. È solo negli ultimi quattro o cinque livelli che il cinese è effettivamente più probabile dell’inglese", spiega Robert West.

Dalle parole ai concetti

Una semplice ipotesi potrebbe essere che il modello traduca l’intero input in inglese e poi lo ritraduca nella lingua di destinazione solo alla fine. Ma analizzando i dati, i ricercatori sono giunti a una teoria molto più interessante.

Nella prima fase dei calcoli, non viene assegnata alcuna probabilità a nessuna delle due parole. A loro avviso, il modello si concentra sulla risoluzione dei problemi di input. Nella seconda fase, in cui domina l’inglese, i ricercatori ritengono che il modello si trovi in una sorta di spazio semantico astratto in cui non ragiona su parole isolate, ma su altri tipi di rappresentazioni che riguardano più che altro i concetti, sono universali in tutte le lingue e rappresentano più che altro un modello del mondo. Questo è importante perché, per prevedere correttamente la parola successiva, il modello deve conoscere molto del mondo e uno dei modi per farlo è avere questa rappresentazione dei concetti.

"Partiamo dal presupposto che questa rappresentazione del mondo in termini di concetti sia orientata verso l’inglese, il che avrebbe molto senso perché i dati utilizzati per addestrare questi modelli sono per circa il 90% inglesi. Essi mappano le parole in ingresso da uno spazio di parole superficiale in uno spazio di significato più profondo con rappresentazioni di come questi concetti si relazionano l’uno con l’altro nella realtà - e i concetti sono rappresentati allo stesso modo delle parole inglesi, piuttosto che delle parole corrispondenti nella lingua di ingresso", dice Robert West.

Monocultura e pregiudizi

La predominanza dell’inglese fa sorgere spontanea la domanda: "È importante?" I ricercatori ritengono di sì. Secondo numerose ricerche, le strutture che esistono nel linguaggio influenzano il modo in cui costruiamo la realtà e le parole che usiamo sono profondamente legate al modo in cui pensiamo al mondo. Robert West suggerisce di iniziare a studiare la psicologia dei modelli linguistici trattandoli come esseri umani e, in diverse lingue, intervistandoli, sottoponendoli a test comportamentali e valutando i loro pregiudizi.

"Credo che questa ricerca abbia toccato un nervo scoperto, perché le persone sono sempre più preoccupate di questo problema di potenziale monocultura. Poiché i modelli sono migliori in inglese, molti ricercatori stanno valutando la possibilità di introdurre contenuti in inglese e tradurli nella lingua desiderata. Da un punto di vista tecnico, questo potrebbe funzionare, ma credo che si perdano molte sfumature, perché ciò che non si può esprimere in inglese non sarà espresso", conclude Robert West.

Scoprite gli ultimi sviluppi nei modelli linguistici su larga scala e nell’intelligenza artificiale ai prossimi Applied Machine Learning Days (AMLD), che si terranno presso lo SwissTech Convention Center dal 23 al 26 marzo 2024. Per sapernedi più sui relatori e registrarsi .