我們推出了 WorldVQA,一個新的基準,用於測量多模態大型語言模型中的原子視覺中心世界知識。 當前的評估通常將視覺知識檢索與推理混為一談。相反,WorldVQA 將這些能力解耦,以嚴格測量「模型記住了什麼」。 該基準由 3,500 個 VQA 配對組成,涵蓋 9 個類別,並仔細考慮語言和文化的多樣性: