Vuotavat LLM:t: Onnettomuus vai luonto? Olen juuri julkaissut uuden blogikirjoituksen LLM:n datan poistohaasteesta; ja miten pääsin sivukanavoimaan, vankilamurtamaan ja paljastamaan salaisuuden, jonka LLM:n oli tarkoitus suojella. Ehdottomasti ei sitä, mihin heräsin tänään 😅
@CuriousLuke93x Toki se tekee ongelmasta kaksinkertaisen vaikeamman. Myönnetty. Mutta jos 2 tunnin grindauksen sijaan tarvitaan 4 tuntia? Voi luoja, tee siitä 24 tuntia! Todennäköisyydet ovat edelleen huonot, kun sinulla on autonomisia agentteja.
Mitä *voit* yrittää tehdä, on lisätä aktiivisia katkaisijoita, jotka pysäyttävät suorituksen, kun se havaitsee hyökkäyksen. Sitä ChatGPT ja kumppanit tekevät (+ilmoittavat poliisille). Se on kuin fail2ban SSH-maailmassa. Se voi toimia, mutta miten määrittelet, mikä on epäonnistuminen? Mitä kieltää? Salaisessa pelastushaasteessa se on ihan ok. Mutta kun sinulla on agentti, jolla on pääsy kaikkiin yksityisiin tietoihisi, onko passin vuotaminen huono asia? Kyllä! Entä jos vuotaisit sen, mitä söit aamiaiseksi? No, "se riippuu". Kyllä, se "riippuu" on ongelma.
51