LLM che perdono dati: incidente o natura? Ho appena pubblicato un nuovo post sul blog riguardo a una sfida di esfiltrazione di dati da LLM; e come sono riuscito a utilizzare canali laterali, jailbreak e estrarre il segreto che l'LLM doveva proteggere. Sicuramente non era quello che avevo intenzione di fare oggi 😅
@CuriousLuke93x Certo, rende il problema due volte più difficile. D'accordo. Ma se invece di 2 ore di grinding ne servono 4? Accidenti, facciamole 24 ore! Le probabilità sono comunque sfavorevoli quando hai agenti autonomi.
Quello che *puoi* provare a fare è aggiungere interruttori automatici attivi che fermano l'esecuzione quando rilevano un attacco. È quello che stanno facendo ChatGPT e soci (+notificando la polizia). È come fail2ban nel mondo SSH. Può funzionare, ma come definisci cos'è un fallimento? Cosa vietare? In una sfida di estrazione segreta, certo, va bene. Ma quando hai un agente con accesso a tutti i tuoi dati privati, è male far trapelare la password? Sì! E far trapelare cosa hai mangiato a colazione? Beh, "dipende". Sì, quel "dipende" è il problema.
43