一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

Ahmad

人工智慧研究員和軟體工程師，肩負著建立 DGX B200 GPU 叢集的使命

> 你是一個想要理解 llm 推理的人 > 你閱讀論文 > “我們使用標準技術” > 哪些技術？代碼在哪裡？ > 開放 vllm > 100k 行的 C++ 和 Python > 自定義 CUDA 核心用於打印 > 關閉標籤 > 現在你有這條推文 > 和 mini-sglang > ~5k 行的 Python > 實際的生產特性 > 四個進程 > api 伺服器 > 分詞器 > 調度器 > 反分詞器 > 通過 zeromq 進行通訊 > 簡單 > 調度器是老大 > 接收請求 > 決定：預填充或解碼 > 將它們批處理 > 將工作發送到 gpu > 預填充 > 處理提示 > 計算密集 > 同時處理數千個標記 > flash attention 負責提升性能 > 解碼 > 一次生成一個新標記 > 受內存限制 > 需要 kv 緩存 > kv 緩存是秘密武器 > 每個標記都記住過去 > 沒有它你需要重新計算所有內容 > 有了它你只需附加 > 內存是有限的 > 進入基數緩存 > 兩個請求 > “解釋量子物理” > “簡單地解釋量子物理” > 相同的前綴 > 為什麼要計算兩次 > 基數樹存儲前綴 > 第一個請求建立緩存 > 第二個請求重用它 > 實際上快了 ~50% > 分塊預填充 > 128k 標記提示到達 > gpu 說 “不行” > 調度器說 “放鬆” > 分割成塊 > 依次處理 > 避免內存溢出 > 張量並行 > 一個模型 > 四個 gpu > 每個 gpu 持有一部分 > allreduce 合併結果 > 消費者設備上的 70b 模型 > 重疊調度 > gpu 處理當前批次 > cpu 準備下一批次 > 兩個流 > 沒有閒置時間 > nano-flow > 解碼的 CUDA 圖 > 小批次 > 高開銷 > 記錄一次 > 永遠重播 > 2ms → 1.5ms > 代碼庫可讀 > core = 數據結構 > scheduler/ = 大腦 > engine/ = 肌肉 > layers/ = 建築塊 > models/ = llama, qwen > 想要添加一個模型 > 複製 llama 文件 > ~200 行 > 添加架構及其技巧 > 完成 > 想要調整調度 > 調度器文件第 ~172 行 > 選擇你的策略 > 完成 > 想要理解注意力 > attention/fa.py > flash-attn 集成 > 註釋解釋了一切 > linux（主要） > 需要 CUDA > 核心即時編譯 > 如果你在 Windows 上使用 wsl2 > mac 用戶保持生氣 :P > 運行它 > python -m minisgl --model "qwen/qwen3-0.6b" > openai 兼容的 api > 令牌流 > 它就是這樣運行的 > 或者大規模運行 > 70b 在 8x rtx 3090s 上 > --tp 8 > 互動式 shell 也有 > --shell > 在終端中聊天 > /reset 清除歷史 > 很棒的代碼 > 可以運行 > 並且教會你 > 在運行時