2,5 vezes mais rápido, mas 6 vezes mais caro. Isso não pode ser alcançado por otimização por inferência, devem ser chips novos. TPU? B200? AWS Inferentia? Cerebras?