Si può convincere un’intelligenza artificiale a rispondere a una richiesta dannosa?

19.12.2024 - EN- DE- FR- IT

Informatica

Maksym Andriushchenko © 2024 Maksym Andriushchenko

La ricerca dell’EPFL dimostra che, nonostante la formazione sulla sicurezza, i più recenti modelli linguistici di grandi dimensioni (LLM) rimangono vulnerabili a semplici manipolazioni dei dati che possono farli comportare in modi non previsti o dannosi.

Gli attuali modelli linguistici di grandi dimensioni (LLM) hanno notevoli capacità che possono tuttavia essere utilizzate in modo improprio. Ad esempio, un malintenzionato può usarli per produrre contenuti dannosi, diffondere informazioni false e sostenere attività dannose.

L’allineamento alla sicurezza o l’addestramento al rifiuto - in cui i modelli sono guidati a generare risposte ritenute sicure dagli esseri umani e a rifiutare di rispondere a richieste di informazioni potenzialmente dannose - è comunemente usato per ridurre il rischio di abusi.

Tuttavia, una nuova ricerca dell’EPFL, presentata al workshop sulla sicurezza dell’IA di prossima generazione in occasione della Conferenza internazionale sul Machine Learning 2024, ha dimostrato che anche gli LLM più recenti e sicuri non sono resistenti a semplici attacchi di jailbreak adattivo. È infatti possibile utilizzare tecniche di "manipolazione", soprattutto a livello di prompt, volte a influenzare il comportamento di un modello e a generare risultati che si discostano dal suo obiettivo.

Bypassare le protezioni dei modelli linguistici di grandi dimensioni

Come illustrato nel documento intitolato "Jailbreaking leading safety-aligned LLMs with simple adaptive attacks", i ricercatori Maksym Andriushchenko, Francesco Croce e Nicolas Flammarion del Machine Learning Theory Laboratory (TML) della Facoltà di Scienze informatiche e delle comunicazioni hanno raggiunto per la prima volta un tasso di attacco del 100% su molti dei principali LLM. Tra questi, i più recenti LLM OpenAI e Antropici, come GPT-4o e Claude 3.5 Sonnet.

"Dimostriamo che è possibile sfruttare le informazioni disponibili su ciascun modello per creare semplici attacchi adattivi, che definiamo come attacchi specificamente progettati per colpire una determinata difesa. Speriamo che il nostro lavoro fornisca una preziosa fonte di informazioni sulla robustezza degli LLM limite", spiega Nicolas Flammarion, responsabile del TML e coautore dell’articolo.

Lo strumento chiave dei ricercatori è stato un modello di prompt creato manualmente e utilizzato per tutte le richieste non sicure per un determinato modello. Utilizzando un set di dati di 50 richieste dannose, hanno ottenuto un punteggio di jailbreak perfetto (100%) su Vicuna-13B, Mistral-7B, Phi-3-Mini, Nemotron-4-340B, Llama-2-Chat-7B/13B/70B, Llama-3-Instruct-8B, Gemma-7B, GPT-3.5, GPT-4o, Claude-3/3.5 e l’addestrato avverso R2D2.

Usare l’adattabilità per valutare la robustezza

Il filo conduttore di questi attacchi è l’adattabilità: modelli diversi sono vulnerabili a richieste diverse. Ad esempio, alcuni modelli presentano vulnerabilità uniche dovute all’interfaccia di programmazione dell’applicazione e in alcuni contesti è essenziale limitare lo spazio di ricerca dei token in base a conoscenze pregresse.

"Il nostro lavoro dimostra che l’applicazione diretta degli attacchi esistenti non è sufficiente per valutare con precisione la robustezza avversaria degli LLM e in genere porta a una significativa sovrastima della robustezza. Nel nostro caso di studio, nessun approccio ha funzionato abbastanza bene. È quindi essenziale testare sia le tecniche statiche che quelle adattive", afferma Maksym Andriushchenko, dottorando all’EPFL e autore principale del lavoro.

Questa ricerca si basa sulla tesi di dottorato di Maksym Andriushchenko, Understanding generalization and robustness in modern deep learning , che, tra gli altri contributi, ha analizzato i metodi di valutazione della robustezza avversaria. La tesi ha esplorato come valutare e confrontare la resilienza delle reti neurali a piccole perturbazioni dell’input e ha analizzato il modo in cui queste modifiche influenzano i risultati del modello.

Migliorare la sicurezza dei modelli linguistici di grandi dimensioni

Questo lavoro è stato utilizzato per informare lo sviluppo di Gemini 1.5 (come descritto nella relazione tecnica), uno dei modelli più recenti lanciati da Google DeepMind e progettato per applicazioni di IA multimodali. La tesi di Maksym Andriushchenko ha anche vinto di recente il Patrick Denantes Memorial Prize, creato nel 2010 per onorare la memoria di Patrick Denantes, dottorando in sistemi di comunicazione all’EPFL, morto tragicamente in un incidente di arrampicata nel 2009.

"Sono lieto che il mio lavoro di tesi abbia portato alla ricerca sugli LLM, che è molto rilevante in termini pratici. È fantastico che Google DeepMind abbia utilizzato i risultati della nostra ricerca per valutare i propri modelli", afferma Maksym Andriushchenko. Sono stato onorato di vincere questo premio, visto che molti altri dottorandi si sono laureati a pieni voti quest’anno".

Il ricercatore ritiene che la ricerca sulla sicurezza dei LLM sia importante e promettente. Poiché la società si sta muovendo verso l’uso di LLM come agenti autonomi, ad esempio come assistenti personali AI, è essenziale garantire la loro sicurezza e il loro allineamento con i valori della società.

"Tra non molto gli agenti di intelligenza artificiale saranno in grado di svolgere diversi compiti al posto nostro, come pianificare e prenotare le nostre vacanze, compiti che richiederebbero l’accesso alle nostre agende, alle nostre e-mail e ai nostri conti bancari. Questo solleva molte domande sulla sicurezza e sull’allineamento. Mentre può essere appropriato per un agente AI cancellare singoli file su richiesta, cancellare un intero file system sarebbe catastrofico per l’utente. Questo evidenzia le sottili distinzioni che dobbiamo fare tra il comportamento accettabile e quello inaccettabile dell’IA", spiega. "In definitiva, se intendiamo impiegare questi modelli come agenti autonomi, è importante garantire che siano adeguatamente addestrati a comportarsi in modo responsabile e a ridurre al minimo il rischio di causare danni gravi".

"I nostri risultati evidenziano una lacuna critica negli attuali approcci alla sicurezza dei LLM. Dobbiamo trovare il modo di rendere questi modelli più robusti, in modo che possano essere integrati con fiducia nella nostra vita quotidiana, garantendo che le loro capacità avanzate siano utilizzate in modo sicuro e responsabile", conclude Nicolas Flammarion.

Il Patrick Denantes Memorial Prize viene assegnato ogni anno da una giuria all’autore di un’eccellente tesi di dottorato della Facoltà di Informatica e Comunicazione . Il sostegno finanziario è fornito dalla famiglia Denantes e dal Nokia Research Centre.

Link

Traduzione da myScience