déterminer quel élément manque s'est avéré impossible pour tous les llms alors que c'était assez trivial pour les humains.
dans l'ensemble, j'ai trouvé que la réflexion de gpt-5 était la plus utile pour certaines questions très spécifiques que j'avais sur silksong. J'ai constaté beaucoup moins d'hallucinations par rapport à quand j'utilisais o3 en jouant à blue prince.
claude et gemini ont complètement échoué, grok a réfléchi un moment et a donné des réponses absurdes (les deux éléments qu'il mentionne peuvent être vus sur l'image).
mise à jour : gpt-5 pro a en fait résolu cela correctement. Je suis impressionné. Le modèle de réflexion s'est trompé à chaque fois.
5,8K