De 2,5 ori mai rapid, dar de 6 ori mai scump. Acest lucru nu poate fi realizat prin optimizare prin inferență, trebuie să fie cipuri noi. TPU? B200? AWS Inferentia? Cerebra?