> 你是一个想要理解 LLM 推理的人 > 你阅读论文 > “我们使用标准技术” > 哪些技术?代码在哪里? > 打开 vllm > 10万行 C++ 和 Python > 自定义 CUDA 内核用于打印 > 关闭标签 > 现在你有了这条推文 > 和 mini-sglang > ~5000 行 Python > 实际的生产特性 > 四个进程 > API 服务器 > 分词器 > 调度器 > 反分词器 > 通过 zeromq 进行通信 > 简单 > 调度器是老板 > 接收请求 > 决定:预填充或解码 > 批处理它们 > 将工作发送到 GPU > 预填充 > 处理提示...