熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我們推出了 WorldVQA,一個新的基準,用於測量多模態大型語言模型中的原子視覺中心世界知識。
當前的評估通常將視覺知識檢索與推理混為一談。相反,WorldVQA 將這些能力解耦,以嚴格測量「模型記住了什麼」。
該基準由 3,500 個 VQA 配對組成,涵蓋 9 個類別,並仔細考慮語言和文化的多樣性:

熱門
排行
收藏
