Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

LLMs con fugas: ¿accidente o naturaleza? Acabo de publicar una nueva entrada en el blog sobre un desafío de exfiltración de datos en LLM; y cómo llegué a hacer un canal lateral, hacer jailbreak y extraer el secreto que el LLM debía proteger. Definitivamente no es para lo que me he despertado hoy 😅

@CuriousLuke93x Claro, hace que el problema sea el doble de difícil. Concedido. ¿Pero si en vez de 2 horas de farmeo se tarda 4 horas? ¡De hecho, que sea las 24 horas! Las probabilidades siguen siendo bajas cuando tienes agentes autónomos.

Lo que *puedes* intentar es añadir interruptores automáticos activos que detengan la ejecución cuando detecta un ataque. Eso es lo que hacen ChatGPT y compañía (+notificando a la policía). Es como fail2ban en el mundo SSH. Eso puede funcionar, pero ¿cómo defines qué es un fracaso? ¿Qué prohibir? En un desafío de extracción secreto, claro, está bien. Pero cuando tienes un agente con acceso a todos tus datos privados, ¿es malo filtrar el pase? ¡Sí! ¿Qué tal si filtras lo que has desayunado? Bueno, "depende". Sí, eso "depende" es el problema.

50

Populares

Ranking

Favoritas