Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
LLMs vazando: acidente ou natureza?
Acabei de publicar um novo post no blog sobre um desafio de exfiltração de dados em LLM; e como consegui fazer um canal lateral, jailbreak e extrair o segredo que o LLM deveria proteger.
Definitivamente não foi para isso que acordei hoje 😅
@CuriousLuke93x Claro, isso torna o problema duas vezes mais difícil. Concedido. Mas se, em vez de 2 horas de grind, ele leva 4 horas? Poxa, faça 24 horas! As probabilidades ainda são baixas quando você tem agentes autônomos.
O que você *pode* tentar fazer é adicionar disjuntores ativos que interrompem a execução quando detectam um ataque. É isso que o ChatGPT e companhia estão fazendo (+notificando a polícia). É como o fail2ban no mundo SSH. Isso pode funcionar, mas como você define o que é um fracasso? O que banir?
Em um desafio secreto de extração, claro, tudo bem. Mas quando você tem um agente com acesso a todos os seus dados privados, vazar o passe é ruim? Sim! Que tal vazar o que você comeu no café da manhã? Bem, "depende". Sim, isso "depende" é o problema.
12
Melhores
Classificação
Favoritos
