Chúng tôi giới thiệu WorldVQA, một tiêu chuẩn mới để đo lường kiến thức thế giới tập trung vào thị giác nguyên tử trong các Mô hình Ngôn ngữ Đa phương thức Lớn. Các đánh giá hiện tại thường nhầm lẫn việc truy xuất kiến thức hình ảnh với lý luận. Ngược lại, WorldVQA tách rời những khả năng này để đo lường một cách nghiêm ngặt "những gì mô hình đã ghi nhớ." Tiêu chuẩn này bao gồm 3.500 cặp VQA trên 9 danh mục, với sự chú ý cẩn thận đến sự đa dạng ngôn ngữ và văn hóa: