LLM Bocor: Kecelakaan atau Alam? Saya baru saja menerbitkan posting blog baru tentang tantangan eksfiltrasi data LLM; dan bagaimana saya bisa menyalurkan sampingan, melakukan jailbreak, dan mengekstrak rahasia yang ingin dilindungi oleh LLM. Jelas bukan apa yang saya bangun untuk lakukan hari ini 😅
@CuriousLuke93x Tentu, itu membuat masalah dua kali lebih sulit. Benar. Tetapi jika alih-alih 2 jam penggilingan dibutuhkan 4 jam? Heck, jadikan 24 jam! Probabilitasnya masih buruk ketika Anda memiliki agen otonom.
Apa yang *dapat* Anda coba lakukan adalah menambahkan pemutus sirkuit aktif yang menghentikan eksekusi saat mendeteksi serangan. Itulah yang dilakukan ChatGPT dan rekannya (+memberi tahu polisi). Ini seperti fail2ban di dunia SSH. Itu bisa berhasil, tetapi bagaimana Anda mendefinisikan apa itu gagal? Apa yang harus dilarang? Dalam tantangan ekstraksi rahasia, tentu, tidak apa-apa. Tetapi ketika Anda memiliki agen dengan akses ke semua data pribadi Anda, apakah kebocoran pass itu buruk? Iya! Bagaimana kalau membocorkan apa yang Anda makan untuk sarapan? Yah, "itu tergantung". Ya, itu "tergantung" adalah masalahnya.
16