Puuttuvan esineen selvittäminen osoittautui mahdottomaksi kaikille LLM:ille, mutta se oli melko vähäpätöistä ihmisille.
Kaiken kaikkiaan pidin GPT-5-ajattelua hyödyllisimpinä joissain hyvin tarkoissa kysymyksissä, joita minulla oli silksongista. Olen nähnyt paljon vähemmän hallusinaatioita verrattuna siihen, kun käytin O3:a pelatessani Blue Princeä.
Claude ja Kaksoset epäonnistuivat täysin, Grok mietti hetken ja antoi järjettömiä vastauksia (molemmat sen mainitsemat asiat näkyvät kuvassa).
Päivitys: GPT-5 Pro itse asiassa ratkaisi tämän oikein. Olen vaikuttunut. Ajattelumalli erehtyi joka kerta.
6,38K