今天我們宣布 ARC Prize Verified,一個旨在提高對 ARC-AGI 前沿系統評估嚴謹性的計劃。 這個計劃增加了一個第三方學術小組來審核我們的測試過程。 我們也歡迎 5 個新的 AI 實驗室成為 ARC-AGI-3 的贊助商。
ARC 獎學金學術審核計畫 我們很高興歡迎四位學術顧問來改善我們的測試過程。他們將: - 提供對我們隱藏測試集協議的外部監督 - 審核並驗證我們的測試方法 - 共同撰寫基準測試的最佳實踐
今天參加小組討論的有: - Todd Gureckis(紐約大學心理學教授) - Guy Van den Broeck(加州大學洛杉磯分校計算機科學教授) - Melanie Mitchell(聖塔菲研究所教授) - Vishal Misra(哥倫比亞大學計算與AI副院長)
歡迎 5 位實驗室贊助商 我們很高興地宣布我們的首批外部實驗室貢獻,這些限制性資金專門用於提升 ARC-AGI-3 的質量 @ndea @xai @Googleorg @NousResearch @PrimeIntellect
ARC 獎項驗證徽章 許多組織渴望在 ARC-AGI 上進行測試,但自我報告的分數在測試一致性上有所不同 只有在我們的隱藏測試集上評估的分數才會被認可為驗證的表現分數 一個新的 ARC 獎項驗證徽章將標示這些分數
161