> eres una persona > quién quiere entender la inferencia LLM > lees artículos > "usamos técnicas estándar" > cuáles? ¿Dónde está el código? > Open VLLM > 100.000 líneas de C++ y Python > kernel cuda personalizado para impresión > cerrar pestaña > ahora tienes este tuit > y mini-sglang > ~5.000 líneas de Python > características reales de producción > cuatro procesos > servidor API > tokenizador > programador > detokenizador > hablar sobre zeromq > sencillo > programador es el jefe > recibe solicitudes > decide: prellenar o decodificar > los agrupa > manda trabajo a la GPU Prerelleno >...