找出缺少的物品对所有大型语言模型来说变得不可能,而对人类来说却相当简单。
总体来说,我发现GPT-5在我关于《Silksong》的某些非常具体的问题上思考得非常有帮助。与我在玩《蓝色王子》时使用O3相比,我看到的幻觉少得多。
claude 和 gemini 完全失败了,grok 思考了一会儿,给出了无意义的答案(它提到的两个项目可以在图片中看到)。
更新:gpt-5 pro 实际上正确地解决了这个问题。我很 impressed。思维模型每次都错。
6.27K