Estamos introduciendo WorldVQA, un nuevo estándar para medir el conocimiento del mundo centrado en la visión atómica en Modelos de Lenguaje Multimodal de Gran Escala. Las evaluaciones actuales a menudo confunden la recuperación de conocimiento visual con el razonamiento. En contraste, WorldVQA desacopla estas capacidades para medir estrictamente "lo que el modelo memoriza." El estándar consta de 3,500 pares de VQA en 9 categorías, con especial atención a la diversidad lingüística y cultural: