31 May 2026, 20:28

Google DeepMind entwickelt CaMeL: Neues Framework gegen KI-Prompt-Injection-Angriffe

Google DeepMind entwickelt neue Sicherheitsarchitektur gegen AI-Schwachstellen

Google DeepMind entwickelt CaMeL: Neues Framework gegen KI-Prompt-Injection-Angriffe

Google DeepMind stellt neues Sicherheitsframework CaMeL vor, um Prompt-Injection-Angriffe auf KI-Systeme abzuwehren

Das Framework soll eine der größten Bedrohungen für Entwickler seit dem breiten Durchbruch von Chatbots im Jahr 2022 entschärfen: Angriffe durch manipulierte Eingabeaufforderungen, die sensible Daten gefährden. Gleichzeitig bleibt die Funktionalität der Sprachmodelle erhalten.

CaMeL behandelt Sprachmodelle als potenziell unzuverlässige Komponenten innerhalb einer abgesicherten Softwarearchitektur. Nutzeranfragen werden in kontrollierte Schritte unterteilt und über einen sicheren Interpreter verarbeitet. Dieser überwacht den Datenfluss und verhindert, dass unzuverlässige Informationen kritische Sicherheitsfunktionen erreichen.

Cashback bei deinen
Lieblingsrestaurants und Services

Kaufe Gutscheine und spare in deinen Lieblingsorten in deiner Nähe

LiberSave App auf Smartphones

Das System setzt auf ein Dual-Modell-Konzept: Ein „privilegiertes Sprachmodell“ generiert Code auf Basis vertrauenswürdiger Werte, während ein „isoliertes Sprachmodell“ unstrukturierte Daten in strukturierte Ausgaben umwandelt – ohne Zugriff auf Werkzeuge oder Speicher. Diese Trennung unterbindet Insider-Bedrohungen und schädliche Tools, die auf den Diebstahl privater Daten abzielen.

CaMeL basiert auf etablierten Sicherheitsprinzipien wie Kontrollfluss-Integrität und Zugriffssteuerung, passt diese jedoch an die Herausforderungen von KI-Systemen an. Tests mit dem AgentDojo-Benchmark zeigten, dass das Framework selbst bisher unlösbare Prompt-Injection-Angriffe abwehren kann, ohne die Nutzerfreundlichkeit einzuschränken.

Trotz seiner Stärken beseitigt CaMeL das Risiko von Prompt-Injection-Angriffen nicht vollständig. Anwender müssen weiterhin eigene Sicherheitsrichtlinien definieren und pflegen. Dennoch bietet das Framework einen deutlich verbesserten Schutz, indem es unvertrauenswürdige Daten isoliert und den Zugriff auf sensible Funktionen beschränkt.

Quelle