LLMs con fugas: ¿Accidente o naturaleza? Acabo de publicar un nuevo post en el blog sobre un desafío de exfiltración de datos de un LLM; y cómo logré acceder a un canal lateral, hacer un jailbreak y extraer el secreto que el LLM debía proteger. Definitivamente no era lo que me desperté a hacer hoy 😅
@CuriousLuke93x Claro, hace que el problema sea el doble de difícil. Concedido. Pero si en lugar de 2h de esfuerzo se necesitan 4h? ¡Vaya, que sean 24h! Las probabilidades siguen siendo malas cuando tienes agentes autónomos.
Lo que *puedes* intentar hacer es añadir interruptores automáticos que detengan la ejecución cuando detecten un ataque. Eso es lo que están haciendo ChatGPT y compañía (+notificando a la policía). Es como fail2ban en el mundo de SSH. Eso puede funcionar, pero ¿cómo defines qué es un fallo? ¿Qué hay que prohibir? En un desafío de extracción de secretos, claro, eso está bien. Pero cuando tienes un agente con acceso a todos tus datos privados, ¿es malo filtrar la contraseña? ¡Sí! ¿Y qué pasa con filtrar lo que desayunaste? Bueno, "depende". Sí, ese "depende" es el problema.
46