> 你是一個想要理解 llm 推理的人 > 你閱讀論文 > “我們使用標準技術” > 哪些技術?代碼在哪裡? > 開放 vllm > 100k 行的 C++ 和 Python > 自定義 CUDA 核心用於打印 > 關閉標籤 > 現在你有這條推文 > 和 mini-sglang > ~5k 行的 Python > 實際的生產特性 > 四個進程 > api 伺服器 > 分詞器 > 調度器 > 反分詞器 > 通過 zeromq 進行通訊 > 簡單 > 調度器是老大 > 接收請求 > 決定:預填充或解碼 > 將它們批處理 > 將工作發送到 gpu > 預填充 > 處理提示...