Averiguar qué elemento falta resultó imposible para todos los LLM mientras que era bastante trivial para los humanos.
En general, encontré el pensamiento GPT-5 más útil con algunas preguntas muy específicas que tenía sobre Silksong. He visto muchas menos alucinaciones en comparación con cuando usé O3 cuando jugaba Blue Prince.
Claude y Gemini fallaron por completo, Grok pensó por un momento y dio respuestas sin sentido (ambos elementos que menciona se pueden ver en la imagen).
Actualización: GPT-5 Pro realmente resolvió esto correctamente. Estoy impresionado. El modelo de pensamiento se equivocó cada vez.
6.28K