找出缺少的項目對所有的 llms 來說變得不可能,但對人類來說卻相當簡單。
總體來說,我發現 GPT-5 在我對 Silksong 的一些非常具體問題上思考得最有幫助。與我在玩藍色王子時使用 O3 相比,我看到的幻覺少了很多。
claude 和 gemini 完全失敗了,grok 思考了一會兒,給出了毫無意義的答案(它提到的兩個項目可以在圖片中看到)。
更新:gpt-5 pro 實際上正確地解決了這個問題。我很印象深刻。思考模型每次都錯了。
6.29K