Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
LLMs fuyants : Accident ou Nature ?
Je viens de publier un nouvel article de blog sur un défi d'exfiltration de données d'un LLM ; et comment j'ai réussi à exploiter un canal latéral, à contourner les protections et à extraire le secret que le LLM était censé protéger.
Ce n'est définitivement pas ce à quoi je m'attendais en me réveillant aujourd'hui 😅
@CuriousLuke93x Bien sûr, cela rend le problème deux fois plus difficile. Accordé. Mais si au lieu de 2h de farming, cela prend 4h ? Mince, faisons-en 24h ! Les probabilités restent mauvaises quand vous avez des agents autonomes.
Ce que vous *pouvez* essayer de faire, c'est d'ajouter des disjoncteurs actifs qui arrêtent l'exécution lorsqu'ils détectent une attaque. C'est ce que fait ChatGPT et compagnie (+ notifier la police). C'est comme fail2ban dans le monde SSH. Cela peut fonctionner, mais comment définissez-vous ce qu'est un échec ? Qu'est-ce qu'il faut interdire ?
Dans un défi d'extraction secrète, bien sûr, c'est acceptable. Mais quand vous avez un agent avec accès à toutes vos données privées, est-ce que le fait de divulguer le mot de passe est mauvais ? Oui ! Que dire de divulguer ce que vous avez mangé au petit-déjeuner ? Eh bien, "ça dépend". Ouais, ce "dépend" est le problème.
19
Meilleurs
Classement
Favoris
