Mencari tahu item apa yang hilang ternyata tidak mungkin untuk semua LLM sementara cukup sepele bagi manusia.
Secara keseluruhan saya menemukan GPT-5 Thinking paling membantu dengan beberapa pertanyaan yang sangat spesifik yang saya miliki tentang SilkSong. Saya telah melihat halusinasi yang jauh lebih sedikit dibandingkan dengan ketika saya menggunakan O3 saat bermain Blue Prince.
Claude dan Gemini gagal sepenuhnya, Grok berpikir sejenak dan memberikan jawaban yang tidak masuk akal (kedua item yang disebutkannya dapat dilihat di gambar).
Pembaruan: GPT-5 Pro benar-benar memecahkannya dengan benar. Saya terkesan. model berpikir salah setiap saat.
5,58K