泄露的 LLM:意外还是本性? 我刚刚发布了一篇关于 LLM 数据外泄挑战的新博客文章;以及我如何通过侧信道、越狱并提取 LLM 本应保护的秘密。 绝对不是我今天早上醒来想做的事情 😅
@CuriousLuke93x 当然,这使得问题变得更加困难。没错。但是如果需要4小时而不是2小时的努力呢?甚至可以设定为24小时!当你有自主代理时,概率仍然很糟糕。
你可以尝试做的是添加主动电路断路器,当检测到攻击时停止执行。这就是 ChatGPT 等正在做的事情(+通知警方)。这就像 SSH 世界中的 fail2ban。这可以有效,但你如何定义什么是失败?该禁止什么? 在一个秘密提取挑战中,当然,这没问题。但当你有一个可以访问你所有私人数据的代理时,泄露密码算不算坏事?是的!那泄露你早餐吃了什么呢?嗯,“这要看情况”。是的,这个“看情况”就是问题所在。
26