どの項目が欠けているかを把握することは、人間にとっては非常に些細なことですが、すべての LLM にとって不可能であることが判明しました。
全体として、GPT-5 Thinking は、Silksong について抱いていたいくつかの非常に具体的な質問に最も役立ったことがわかりました。ブループリンスをプレイするときにO3を使用したときに比べて幻覚がはるかに少なくなりました。
クロードとジェミニは完全に失敗し、グロックはしばらく考えて無意味な答えをしました(言及されている両方の項目は写真で見ることができます)。
更新: GPT-5 Pro は実際にこれを正しく解決しました。感銘を受けました。思考モデルは毎回間違っていました。
6.12K