速度快2.5倍,但成本高6倍。 这无法通过推理优化实现,必须是新芯片。 TPU?B200?AWS Inferentia?Cerebras?