Prezentăm WorldVQA, un nou reper pentru măsurarea cunoașterii lumii centrate pe viziunea atomică în Modelele de Limbaj Multimodale de Dimensiuni. Evaluările actuale confundă adesea recuperarea vizuală a cunoștințelor cu raționamentul. În contrast, WorldVQA decuplează aceste capabilități pentru a măsura strict "ceea ce modelul memorează". Reperul constă în 3.500 de perechi VQA în 9 categorii, cu o atenție deosebită diversității lingvistice și culturale: