Nieszczelne LLM-y: Wypadek czy natura? Właśnie opublikowałem nowy post na blogu na temat wyzwania związanego z eksfiltracją danych LLM; oraz jak udało mi się wykorzystać kanał boczny, złamać zabezpieczenia i wydobyć sekret, który LLM miał chronić. Zdecydowanie nie to, co planowałem na dzisiaj 😅
@CuriousLuke93x Jasne, to sprawia, że problem jest dwa razy trudniejszy. Zgoda. Ale jeśli zamiast 2 godzin grindowania zajmie to 4 godziny? Cholera, niech to będzie 24 godziny! Prawdopodobieństwa wciąż są złe, gdy masz autonomiczne agenty.
Co możesz *spróbować* zrobić, to dodać aktywne wyłączniki obwodów, które zatrzymują wykonanie, gdy wykryją atak. To właśnie robią ChatGPT i spółka (+powiadamiają policję). To jak fail2ban w świecie SSH. To może działać, ale jak zdefiniować, co to jest porażka? Co należy zablokować? W wyzwaniu związanym z wydobywaniem sekretów, pewnie, to w porządku. Ale gdy masz agenta z dostępem do wszystkich swoich prywatnych danych, czy wyciek hasła jest zły? Tak! A co z wyciekiem tego, co miałeś na śniadanie? Cóż, "to zależy". Tak, to "zależy" jest problemem.
48