scoprire quale oggetto mancasse si è rivelato impossibile per tutti i llms, mentre è stato piuttosto banale per gli esseri umani.
nel complesso ho trovato il pensiero di gpt-5 molto utile per alcune domande molto specifiche che avevo su silksong. Ho visto molte meno allucinazioni rispetto a quando usavo o3 mentre giocavo a blue prince.
claude e gemini hanno fallito completamente, grok ha pensato per un po' e ha dato risposte insensate (entrambi gli elementi menzionati possono essere visti nell'immagine).
aggiornamento: gpt-5 pro ha effettivamente risolto questo correttamente. Sono impressionato. Il modello di pensiero ha sbagliato ogni volta.
6,12K