Să-ți dai seama ce obiect lipsește s-a dovedit imposibil pentru toate LLM-urile, fiind în același timp destul de banal pentru oameni.
În general, gândirea GPT-5 mi s-a părut cea mai utilă cu câteva întrebări foarte specifice pe care le-am avut despre Silksong. Am văzut mult mai puține halucinații în comparație cu atunci când am folosit O3 când am jucat Blue Prince.
Claude și Gemeni au eșuat complet, Grok s-a gândit o vreme și a dat răspunsuri fără sens (ambele elemente pe care le menționează pot fi văzute în imagine).
Actualizare: GPT-5 Pro a rezolvat corect acest lucru. Sunt impresionat. Modelul de gândire a greșit de fiecare dată.
5,8K