Undichte LLMs: Unfall oder Natur? Ich habe gerade einen neuen Blogbeitrag über eine Herausforderung zur Datenexfiltration von LLMs veröffentlicht; und wie ich es geschafft habe, über Seitenkanäle zu gelangen, zu jailbreaken und das Geheimnis zu extrahieren, das das LLM schützen sollte. Definitiv nicht das, was ich heute Morgen vorhatte 😅
@CuriousLuke93x Sicher, es macht das Problem doppelt so schwer. Zugegeben. Aber wenn es anstelle von 2 Stunden Grinding 4 Stunden dauert? Verdammt, mach es 24 Stunden! Die Wahrscheinlichkeiten sind immer noch schlecht, wenn man autonome Agenten hat.
Was du *versuchen* kannst, ist, aktive Schutzschalter hinzuzufügen, die die Ausführung anhalten, wenn ein Angriff erkannt wird. Das ist es, was ChatGPT und Co. tun (+die Polizei benachrichtigen). Es ist wie fail2ban in der SSH-Welt. Das kann funktionieren, aber wie definierst du, was ein Fehler ist? Was soll verboten werden? In einer Geheimnisausgrabungsherausforderung ist das in Ordnung. Aber wenn du einen Agenten hast, der Zugriff auf all deine privaten Daten hat, ist es schlecht, das Passwort zu leaken? Ja! Wie wäre es, wenn du leaken würdest, was du zum Frühstück hattest? Nun, "es kommt darauf an". Ja, dieses "kommt darauf an" ist das Problem.
18