Wir führen WorldVQA ein, einen neuen Maßstab zur Messung des atomaren, visionären Weltwissens in multimodalen großen Sprachmodellen. Aktuelle Bewertungen vermischen oft die visuelle Wissensabfrage mit dem Schließen. Im Gegensatz dazu entkoppelt WorldVQA diese Fähigkeiten, um strikt zu messen, "was das Modell speichert." Der Maßstab besteht aus 3.500 VQA-Paaren in 9 Kategorien, mit sorgfältiger Berücksichtigung der sprachlichen und kulturellen Vielfalt: