Мы представляем WorldVQA, новую оценку для измерения атомарных знаний о мире, ориентированных на зрение, в многомодальных больших языковых моделях. Текущие оценки часто смешивают извлечение визуальных знаний с рассуждением. В отличие от этого, WorldVQA разделяет эти возможности, чтобы строго измерить "что модель запоминает." Оценка состоит из 3,500 пар VQA в 9 категориях, с тщательным вниманием к языковому и культурному разнообразию: