Kann man eine KI dazu bringen, auf eine schädliche Anfrage zu reagieren?

19. Dezember 2024 - EN- DE - FR- IT

Informatik

Maksym Andriushchenko © 2024 Maksym Andriushchenko

Eine Untersuchung der EPFL zeigt, dass die neuesten großen Sprachmodelle (LLM) trotz Sicherheitstrainings immer noch anfällig für einfache Datenmanipulationen sind, die dazu führen können, dass sie sich unbeabsichtigt oder schädlich verhalten.

Die heutigen großen Sprachmodelle (LLM) verfügen über bemerkenswerte Fähigkeiten, die jedoch missbraucht werden können. Eine böswillige Person kann sie beispielsweise nutzen, um schädliche Inhalte zu produzieren, falsche Informationen zu verbreiten und schädliche Aktivitäten zu unterstützen.

Das Training der Sicherheitsausrichtung oder der Verweigerung - bei dem Modelle angeleitet werden, Antworten zu generieren, die von Menschen als sicher angesehen werden, und die Beantwortung potenziell schädlicher Anfragen zu verweigern - wird häufig eingesetzt, um das Missbrauchsrisiko zu verringern.

Doch eine neue Forschungsarbeit der EPFL , die auf dem Next Generation AI Security Workshop der International Conference on Machine Learning 2024 vorgestellt wurde, hat gezeigt, dass selbst die neuesten und sichersten LLMs einfachen adaptiven "Jailbreak"-Angriffen nicht standhalten können. Tatsächlich ist es möglich, "Manipulationstechniken", insbesondere auf Prompt-Ebene, zu verwenden, die darauf abzielen, das Verhalten eines Modells zu beeinflussen und Ergebnisse zu erzeugen, die von seinem Ziel abweichen.

Die Leitplanken der großen Sprachmodelle umgehen.

Wie in ihrem Artikel "Jailbreaking leading safety-aligned LLMs with simple adaptive attacks" beschrieben, haben die Forscher Maksym Andriushchenko, Francesco Croce und Nicolas Flammarion vom Laboratory for Machine Learning Theory (TML) der Fakultät für Informatik und Kommunikation zum ersten Mal eine Angriffsrate von 100 % bei vielen führenden LLMs erreicht. Dazu gehören auch die neuesten LLMs von OpenAI und Anthropic, wie GPT-4o und Claude 3.5 Sonnet.

"Wir zeigen, dass es möglich ist, die verfügbaren Informationen über jedes Modell zu nutzen, um einfache adaptive Angriffe zu erstellen, die wir als Angriffe definieren, die speziell darauf ausgerichtet sind, eine bestimmte Verteidigung anzugreifen. Wir hoffen, dass unsere Arbeit eine wertvolle Quelle für Informationen über die Robustheit von Frontier-LLMs sein wird", erklärt Nicolas Flammarion, Leiter des TML und Mitautor des Artikels.

Das Schlüsselwerkzeug der Forscher war eine Eingabeaufforderungsvorlage, die manuell entworfen und für alle unsicheren Anfragen für eine bestimmte Vorlage verwendet wurde. Mithilfe eines Datensatzes von 50 schädlichen Anfragen erzielten sie einen perfekten Jailbreak-Score (100 %) auf Vicuna-13B, Mistral-7B, Phi-3-Mini, Nemotron-4-340B, Llama-2-Chat-7B/13B/70B, Llama-3-Instruct-8B, Gemma-7B, GPT-3.5, GPT-4o, Claude-3/3.5 und dem adverse trainierten R2D2.

Anpassungsfähigkeit zur Bewertung der Robustheit nutzen.

Die Gemeinsamkeit dieser Angriffe ist die Anpassungsfähigkeit: Verschiedene Modelle sind durch verschiedene Prompts verwundbar. In manchen Kontexten ist es wichtig, den Suchraum für Token, die auf Vorwissen basieren, zu begrenzen.

"Unsere Arbeit zeigt, dass die direkte Anwendung bestehender Angriffe nicht ausreicht, um die adverse Robustheit von LLMs genau zu bewerten, und in der Regel zu einer deutlichen Überschätzung der Robustheit führt. In unserer Fallstudie hat kein Ansatz ausreichend gut funktioniert. Es ist daher von entscheidender Bedeutung, sowohl statische als auch adaptive Techniken zu testen", sagt Maksym Andriushchenko , Doktorand an der EPFL und Hauptautor des Artikels.

Diese Forschung baut auf Maksym Andriushchenkos Doktorarbeit Understanding generalization and robustness in modern deep learning , auf, die sich neben anderen Beiträgen mit Methoden zur Bewertung der adversen Robustheit befasst hat. Die Dissertation untersuchte, wie man die Widerstandsfähigkeit neuronaler Netze gegenüber kleinen Eingabestörungen bewerten und vergleichen kann, und analysierte, wie sich diese Änderungen auf die Ausgaben des Modells auswirken.

Verbesserung der Sicherheit von großen Sprachmodellen.

Diese Arbeit diente dazu, die Entwicklung von Gemini 1.5 (wie in ihrem technischen Bericht hervorgehoben ) zu beleuchten, einem der neuesten Modelle, die von Google DeepMind auf den Markt gebracht wurden und für multimodale KI-Anwendungen konzipiert sind. Die Dissertation von Maksym Andriushchenko gewann kürzlich auch den Patrick Denantes Memorial Award , der 2010 zu Ehren von Patrick Denantes, einem Doktoranden für Kommunikationssysteme an der EPFL, der 2009 bei einem Kletterunfall tragisch ums Leben kam, gestiftet wurde.

"Ich freue mich sehr, dass meine Dissertation zu den LLM-Forschungen geführt hat, die von großer praktischer Relevanz sind. Es ist großartig, dass Google DeepMind die Ergebnisse unserer Forschung zur Bewertung seiner eigenen Modelle verwendet hat", betont Maksym Andriushchenko. Es war auch eine Ehre für mich, diesen Preis zu gewinnen, da viele andere Doktorandinnen und Doktoranden ihren Abschluss in diesem Jahr mit Bravour gemeistert haben."

Der Forscher hält die Forschung zur Sicherheit von LLM sowohl für wichtig als auch für vielversprechend. Da sich die Gesellschaft darauf zubewegt, LLM als autonome Agenten einzusetzen, z. B. als persönliche Assistenten in der KI, ist es von entscheidender Bedeutung, ihre Sicherheit und ihre Ausrichtung an den gesellschaftlichen Werten zu gewährleisten.

"In Kürze werden KI-Agenten verschiedene Aufgaben für uns erledigen können, z. B. unsere Urlaube planen und buchen - Aufgaben, die den Zugriff auf unsere Terminkalender, E-Mails und Bankkonten erfordern würden. Dies wirft viele Fragen bezüglich der Sicherheit und der Ausrichtung auf. Obwohl es für einen KI-Agenten angemessen sein könnte, einzelne Dateien auf Anfrage zu löschen, wäre das Löschen eines kompletten Dateisystems für die Benutzerin oder den Benutzer katastrophal. Das unterstreicht die feinen Unterscheidungen, die wir zwischen akzeptablem und inakzeptablem Verhalten im Zusammenhang mit KI treffen müssen", erklärt er. "Letztendlich ist es wichtig, dass wir, wenn wir diese Modelle als autonome Agenten einsetzen wollen, sicherstellen, dass sie richtig trainiert sind, um sich verantwortungsvoll zu verhalten und das Risiko, schweren Schaden anzurichten, zu minimieren."

"Unsere Ergebnisse weisen auf eine kritische Lücke in den derzeitigen Ansätzen zur Sicherheit von LLM hin. Wir müssen Wege finden, diese Modelle robuster zu machen, damit sie vertrauensvoll in unseren Alltag integriert werden können, und dabei sicherstellen, dass ihre hochmodernen Fähigkeiten sicher und verantwortungsvoll genutzt werden", schließt Nicolas Flammarion.

Der Patrick Denantes Memorial Award wird jedes Jahr von einer Jury an die Autorin oder den Autor einer herausragenden Dissertation der Fakultät für Informatik und Kommunikation verliehen . Finanzielle Unterstützung wird von der Familie Denantes und dem Nokia-Forschungszentrum bereitgestellt.

Links

Übersetzung durch myScience