热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
一年前,我们验证了一个未发布版本的 @OpenAI o3 (高) 的预览,该版本在 ARC-AGI-1 上得分为 88%,估计每个任务 $4.5k
今天,我们验证了新的 GPT-5.2 Pro (超高) 的 SOTA 得分为 90.5%,每个任务 $11.64
这代表着一年内效率提高了 ~390 倍

我们还验证了 GPT-5.2 Pro (高) 在 ARC-AGI-2 上的表现是 SOTA,得分为 54.2%,每个任务 $15.72
(由于 API 超时,我们无法可靠地验证 GPT 5.2 Pro X-高 在 ARC-AGI-2 上的表现)
所有验证过的 GPT-5.2 系列得分:

ARC-AGI 正在实现其 2019 年的目标,将 AI 推向超越记忆的高效即时适应
推理系统现在在简单任务上展现出真正的流动智能
即使在这种巨大的效率提升下,与人类之间仍然存在很大的差距
2025年大奖的目标是每个任务$0.20,而人类在能量效率上要高出几个数量级
我们仍然可以从ARC-AGI-1和ARC-AGI-2中学到很多东西
ARC-AGI-3(2026)将进一步推动AI的能力和效率
旨在衡量AI在新环境中高效学习和概括的能力,这将是首个互动推理基准
敬请期待
如果在短短几个月内发布数百款测试AI前沿的新游戏听起来令人兴奋,欢迎加入正在创建ARC-AGI-3的工程团队。

44.61K
热门
排行
收藏
