Vi introducerar WorldVQA, en ny referenspunkt för att mäta världskunskap med atomisk visionsfokus i multimodala stora språkmodeller. Nuvarande utvärderingar blandar ofta ihop visuell kunskapsåtervinning med resonemang. I kontrast frikopplar WorldVQA dessa funktioner för att strikt mäta "vad modellen memorerar." Benchmarken består av 3 500 VQA-par inom 9 kategorier, med noggrann uppmärksamhet på språklig och kulturell mångfald: