descubrir qué artículo falta resultó imposible para todos los llms mientras que para los humanos fue bastante trivial.
en general, encontré que el pensamiento de gpt-5 fue más útil con algunas preguntas muy específicas que tenía sobre silksong. He visto muchas menos alucinaciones en comparación con cuando usé o3 al jugar blue prince.
claude y gemini fallaron completamente, grok pensó por un tiempo y dio respuestas sin sentido (ambos elementos que menciona se pueden ver en la imagen).
actualización: gpt-5 pro realmente resolvió esto correctamente. Estoy impresionado. El modelo de pensamiento se equivocó cada vez.
6,28K