2.5x más rápido pero 6x más caro. Esto no se puede lograr mediante la optimización de inferencias, deben ser nuevos chips. ¿TPU? ¿B200? ¿AWS Inferentia? ¿Cerebras?