Descobrir qual item está faltando acabou sendo impossível para todos os LLMs, embora seja bastante trivial para os humanos.
No geral, achei o pensamento GPT-5 mais útil com algumas perguntas muito específicas que eu tinha sobre o Silksong. Eu vi muito menos alucinações em comparação com quando usei O3 ao jogar Blue Prince.
Claude e Gemini falharam completamente, Grok pensou por um tempo e deu respostas sem sentido (ambos os itens mencionados podem ser vistos na foto).
Atualização: GPT-5 Pro realmente resolveu isso corretamente. Estou impressionado. O modelo de pensamento errou todas as vezes.
6,11K