Hace un año, verificamos una vista previa de una versión inédita de @OpenAI o3 (Alto) que obtuvo un 88% en ARC-AGI-1 como aproximadamente. 4.500 $/tarea Hoy hemos verificado una nueva puntuación SOTA GPT-5.2 Pro (X-High) del 90,5% a 11,64 $ por tarea Esto representa una mejora de eficiencia de ~390 veces en un año
También verificamos que GPT-5.2 Pro (Alto) es SOTA para ARC-AGI-2, obteniendo un 54,2% por $15.72 por tarea (Debido a tiempos de espera de la API, no pudimos verificar de forma fiable GPT 5.2 Pro X-High en ARC-AGI-2) Todas las puntuaciones verificadas de la familia GPT-5.2:
ARC-AGI está logrando su objetivo de 2019 de llevar la IA más allá de la memorización hacia una adaptación eficiente sobre la marcha Los sistemas de razonamiento ahora muestran una inteligencia genuina y fluida en tareas simples
Incluso con esta gran mejora en la eficiencia, sigue existiendo una gran brecha respecto a los humanos El objetivo del Gran Premio 2025 era de 0,20 $ por tarea y los humanos son varios órdenes de magnitud más eficientes en términos energéticos Aún queda mucho por aprender de ARC-AGI-1 y ARC-AGI-2
ARC-AGI-3 (2026) impulsará aún más la capacidad y eficiencia de la IA Diseñado para medir la capacidad de la IA para aprender y generalizar de forma eficiente en entornos novedosos, será un Benchmark de Razonamiento Interactivo pionero en su tipo Permanece atento
Si te parece emocionante lanzar cientos de juegos novedosos que ponen a prueba la frontera de la IA en solo unos meses, únete al equipo de ingeniería que crea ARC-AGI-3
44.59K