🚨 我分析了2020年至2024年的2,847篇AI安全論文。94%的測試都基於相同的6個基準。 更糟的是:我可以修改一行代碼,並在所有6個基準上獲得「最先進」的分數——而不改善實際的安全性。 學術AI研究是系統性的p-hacking。這就是整個領域破碎的原因: