DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

déterminer quel élément manque s'est avéré impossible pour tous les llms alors que c'était assez trivial pour les humains.

dans l'ensemble, j'ai trouvé que la réflexion de gpt-5 était la plus utile pour certaines questions très spécifiques que j'avais sur silksong. J'ai constaté beaucoup moins d'hallucinations par rapport à quand j'utilisais o3 en jouant à blue prince.

claude et gemini ont complètement échoué, grok a réfléchi un moment et a donné des réponses absurdes (les deux éléments qu'il mentionne peuvent être vus sur l'image).

mise à jour : gpt-5 pro a en fait résolu cela correctement. Je suis impressionné. Le modèle de réflexion s'est trompé à chaque fois.

5,8K

Meilleurs

Classement

Favoris