开放模型显示速度提高2.5倍,成本增加6倍 较低的批量大小,推测解码更困难 Deepseek的帕累托最优曲线显示这一点 Claude Opus 4.6为每用户100 Tok/s Deepseek在100时为每GPU 6k Tok/s 在每用户250 tok/s时更接近1k