Sızıntılı LLM'ler: Kaza mı yoksa Doğa mı? LLM veri sızdırma meydan okuması hakkında yeni bir blog yazısı yayımladım; ve LLM'nin koruması gereken sırrı yan kanal olarak nasıl çıkarıp jailbreak yaptığımı. Bugün 😅 uyandığım şey kesinlikle bu değildi
@CuriousLuke93x Elbette, bu sorunu iki kat zorlaştırıyor. Kabul edildi. Ama eğer 2 saat grind yerine 4 saat sürüyorsa? Hatta 24 saat yap! Otonom ajanlarınız olduğunda olasılıklar hâlâ kötü.
Deneyebileceğiniz, bir saldırı tespit edildiğinde yürütmeyi durduran aktif devre kesiciler eklemek. ChatGPT ve ekibi de bunu yapıyor (+polisi bilgilendirmek). SSH dünyasında fail2ban gibi. Bu işe yarayabilir ama başarısızlık neyi tanımlarsınız? Neyi yasaklamalı? Gizli bir çıkarma meydan okumasında, tabii, sorun değil. Ama tüm özel verilerinize erişimi olan bir ajanınız varsa, geçiş sızdırması kötü mü? Evet! Kahvaltıda yediklerini sizdirmeye ne dersin? Yani, "duruma bağlı". Evet, sorun "duruma bağlı" bu.
46