أسرع بمقدار 2.5 مرة لكن أغلى بمقدار 6 مرات. لا يمكن تحقيق ذلك بتحسين الاستدلال، يجب أن تكون شرائح جديدة. TPU؟ B200؟ AWS Inferentia؟ مخيخ؟