Los modelos abiertos muestran 2.5x más rápido, 6x más caro Tamaño de lote más bajo, la decodificación especulativa es más difícil La curva óptima de Pareto para Deepseek en muestra esto Claude Opus 4.6 es 100 Tok/s/usuario Deepseek a 100 es 6k Tok/s/GPU A 250 tok/s/usuario está más cerca de 1k