Zjistit, jaká položka chybí, se ukázalo jako nemožné pro všechny LLM, zatímco pro lidi to bylo docela triviální.
Celkově jsem zjistil, že GPT-5 Thinking je nejužitečnější s některými velmi specifickými otázkami, které jsem měl ohledně Silksongu. Viděl jsem mnohem méně halucinací ve srovnání s tím, když jsem používal O3 při hraní Blue Prince.
Claude a Blíženec zcela selhali, Grok se na chvíli zamyslel a dával nesmyslné odpovědi (obě věci, které zmiňuje, jsou vidět na obrázku).
Aktualizace: GPT-5 Pro to ve skutečnosti vyřešil správně. Jsem ohromen. Model myšlení se pokaždé mýlil.
6,28K