LLMs vazando: acidente ou natureza? Acabei de publicar um novo post no blog sobre um desafio de exfiltração de dados em LLM; e como consegui fazer um canal lateral, jailbreak e extrair o segredo que o LLM deveria proteger. Definitivamente não foi para isso que acordei hoje 😅
@CuriousLuke93x Claro, isso torna o problema duas vezes mais difícil. Concedido. Mas se, em vez de 2 horas de grind, ele leva 4 horas? Poxa, faça 24 horas! As probabilidades ainda são baixas quando você tem agentes autônomos.
O que você *pode* tentar fazer é adicionar disjuntores ativos que interrompem a execução quando detectam um ataque. É isso que o ChatGPT e companhia estão fazendo (+notificando a polícia). É como o fail2ban no mundo SSH. Isso pode funcionar, mas como você define o que é um fracasso? O que banir? Em um desafio secreto de extração, claro, tudo bem. Mas quando você tem um agente com acesso a todos os seus dados privados, vazar o passe é ruim? Sim! Que tal vazar o que você comeu no café da manhã? Bem, "depende". Sim, isso "depende" é o problema.
12