2,5x sneller maar 6x duurder. Dit kan niet worden bereikt door inferentie-optimalisatie, het moeten nieuwe chips zijn. TPU? B200? AWS Inferentia? Cerebras?