I grandi modelli linguistici percepiscono il senso del tempo

- EN- DE- FR- IT
 (Immagine: Pixabay CC0)
(Immagine: Pixabay CC0)

All’interno di una frase, i modelli linguistici di grandi dimensioni come il GPT-4 sono più bravi a prevedere le parole future rispetto a quelle precedenti. Questo effetto "freccia del tempo" potrebbe ridefinire la nostra comprensione della struttura del linguaggio naturale e il modo in cui questi modelli la comprendono.

I modelli linguistici di grandi dimensioni (LLM), come il GPT-4, sono diventati indispensabili per attività quali la creazione di testi, la codifica, il funzionamento di robot di conversazione e la traduzione. Prevedono la parola successiva in una frase basandosi sulle parole precedenti: un’idea semplice ma efficace che è alla base della maggior parte delle loro funzionalità. Ma cosa succede se chiediamo a questi modelli di prevedere le parole di un testo al contrario, cioè di tornare indietro e determinare la parola precedente a partire dalle parole successive?

Questa domanda ha portato Clément Hongler, cattedra di Teoria statistica dei campi all’EPFL, e Jérémie Wenger di Goldsmiths (Londra) a indagare se le LLM possano creare una storia al contrario, cioè partendo dalla fine. In collaborazione con Vassilis Papadopoulos, ricercatore di intelligenza artificiale presso l’EPFL, hanno fatto una scoperta sorprendente: le LLM sono sistematicamente meno accurate quando prevedono al contrario.

Un’asimmetria fondamentale

I tre ricercatori hanno testato LLM di diverse architetture e dimensioni. Per tutti i modelli è apparso un effetto di distorsione "freccia del tempo", che rivela un’asimmetria fondamentale nel modo in cui gli LLM elaborano i testi.

Clément Hongler spiega: "Questa scoperta dimostra che mentre le LLM sono abbastanza efficaci nel predire le parole successive e precedenti in un testo, sono sempre leggermente meno efficaci al contrario. Le loro prestazioni nel predire la parola precedente sono sempre inferiori di qualche punto percentuale. Questo fenomeno è universale: appare in tutte le lingue e può essere osservato con qualsiasi modello linguistico di grandi dimensioni".

Questo lavoro fa eco a quello di Claude Shannon, il padre della teoria dell’informazione, esposto nel suo. Claude Shannon cercò di capire se fosse facile prevedere la lettera successiva di una sequenza come quella precedente. Scoprì che, sebbene i due compiti fossero teoricamente ugualmente difficili, gli esseri umani trovavano la previsione a ritroso leggermente più difficile.

Agenti intelligenti

"In teoria, non dovrebbe esserci alcuna differenza tra prima e dopo, ma gli LLM sembrano essere in qualche modo sensibili al senso del tempo in cui elaborano il testo", spiega Clément Hongler. È interessante notare che questo fenomeno è legato a una proprietà profonda della struttura del linguaggio che è stata scoperta solo con l’emergere dei modelli linguistici di grandi dimensioni negli ultimi cinque anni".

I tre ricercatori associano questa proprietà alla presenza di agenti intelligenti che elaborano le informazioni, il che significa che potrebbe essere utilizzata come strumento per individuare l’intelligenza o la vita e contribuire a creare LLM più efficienti. Infine, potrebbe indicare nuove direzioni per la comprensione di un problema di vecchia data, il passaggio del tempo come fenomeno emergente in fisica.

Il loro lavoro è stato presentato alla prestigiosa conferenza ICML ed è disponibile anche su arXiv.

Dal teatro alla matematica

Questo studio ha una storia affascinante da raccontare, come spiega Clément Hongler: "Nel 2020, con Jérémie [Wenger], abbiamo lavorato con la scuola di teatro La Manufacture per creare un robot conversatore progettato per improvvisare con gli attori. Nell’improvvisazione, spesso si vuole far proseguire la storia, anche se si sa come dovrebbe essere il finale".

"Per creare storie che finissero in un modo specifico, abbiamo pensato di addestrare il robot conversatore a parlare "al contrario", permettendogli di creare una storia a partire dal suo finale. Ad esempio, se il finale è "e vissero per sempre felici e contenti", il modello potrebbe dire come è andata a finire. Abbiamo addestrato i modelli a fare questo e abbiamo notato che erano un po’ meno efficaci al contrario".

"Con Vassilis [Papadopoulos], ci siamo poi resi conto che si trattava di una caratteristica profonda del linguaggio e di un nuovo fenomeno abbastanza generale, che è fortemente associato allo scorrere del tempo, all’intelligenza e alla nozione di causalità. Piuttosto forte per un progetto teatrale!".

L’entusiasmo di Clément Hongler per questo lavoro è dovuto in gran parte alle sorprese che si sono presentate lungo il percorso: "Il tempo ci dirà se quello che è iniziato come un progetto teatrale finirà per fornirci nuovi strumenti di comprensione del mondo".

Fondazione della famiglia Blavatnik

NCCR SwissMAP

EPFL

Referenze

Vassilis Papadopoulos, Jérémie Wenger, Clément Hongler. Frecce del tempo per modelli linguistici di grandi dimensioni. arXiv: 2401.17505v4