一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

我們推出了 WorldVQA，一個新的基準，用於測量多模態大型語言模型中的原子視覺中心世界知識。當前的評估通常將視覺知識檢索與推理混為一談。相反，WorldVQA 將這些能力解耦，以嚴格測量「模型記住了什麼」。該基準由 3,500 個 VQA 配對組成，涵蓋 9 個類別，並仔細考慮語言和文化的多樣性：