洩漏的 LLM:意外還是天性? 我剛發表了一篇關於 LLM 數據外洩挑戰的新博客文章;以及我如何利用側信道、越獄並提取 LLM 本應保護的秘密。 今天早上醒來絕對不是要做這個 😅
@CuriousLuke93x 當然,這使得問題變得難上加難。這是事實。但如果需要4小時而不是2小時的努力呢?甚至可以變成24小時!當你有自主代理時,概率仍然很糟糕。
你可以嘗試做的是添加主動斷路器,當它檢測到攻擊時會停止執行。這就是 ChatGPT 和其他類似工具所做的(+通知警方)。這就像 SSH 世界中的 fail2ban。這可以有效,但你如何定義什麼是失敗?該禁止什麼? 在一個秘密提取挑戰中,這當然可以。但當你有一個可以訪問你所有私人數據的代理時,洩漏密碼是壞事嗎?是的!那麼洩漏你早餐吃了什麼呢?嗯,“這要看情況”。是的,那個“要看情況”就是問題所在。
42