跳轉至主要內容
行情
掃鏈
追蹤
信號
跟單
兌換
資產
邀請計劃
更多
產品
DeFi
市場
安全中心
開發者中心
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
Wallet API
探索 Wallet API
API 文檔
API Key 管理
區塊鏈瀏覽器
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
X Campaign
參與活動,贏取豐厚獎勵
獎勵中心
領取獎勵和空投
預警
語言
貨幣
DEX 功能
顏色設置
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
學院
幫助中心
返回
自動翻譯代幣名稱
自動翻譯 X 內容
懸停顯示代幣卡片
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
+6.58%
USELESS
+3.4%
IKUN
+11.34%
gib
+2.52%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
-1.38%
ALON
+8.49%
LAUNCHCOIN
-2.18%
GOONC
+1.36%
KLED
-7.26%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
-0.18%
Boopa
+1.74%
PORK
0.00%
主頁
Ahmad
人工智慧研究員和軟體工程師,肩負著建立 DGX B200 GPU 叢集的使命
查看原文
Ahmad
5 小時前
> 你是一個想要理解 llm 推理的人 > 你閱讀論文 > “我們使用標準技術” > 哪些技術?代碼在哪裡? > 開放 vllm > 100k 行的 C++ 和 Python > 自定義 CUDA 核心用於打印 > 關閉標籤 > 現在你有這條推文 > 和 mini-sglang > ~5k 行的 Python > 實際的生產特性 > 四個進程 > api 伺服器 > 分詞器 > 調度器 > 反分詞器 > 通過 zeromq 進行通訊 > 簡單 > 調度器是老大 > 接收請求 > 決定:預填充或解碼 > 將它們批處理 > 將工作發送到 gpu > 預填充 > 處理提示 > 計算密集 > 同時處理數千個標記 > flash attention 負責提升性能 > 解碼 > 一次生成一個新標記 > 受內存限制 > 需要 kv 緩存 > kv 緩存是秘密武器 > 每個標記都記住過去 > 沒有它你需要重新計算所有內容 > 有了它你只需附加 > 內存是有限的 > 進入基數緩存 > 兩個請求 > “解釋量子物理” > “簡單地解釋量子物理” > 相同的前綴 > 為什麼要計算兩次 > 基數樹存儲前綴 > 第一個請求建立緩存 > 第二個請求重用它 > 實際上快了 ~50% > 分塊預填充 > 128k 標記提示到達 > gpu 說 “不行” > 調度器說 “放鬆” > 分割成塊 > 依次處理 > 避免內存溢出 > 張量並行 > 一個模型 > 四個 gpu > 每個 gpu 持有一部分 > allreduce 合併結果 > 消費者設備上的 70b 模型 > 重疊調度 > gpu 處理當前批次 > cpu 準備下一批次 > 兩個流 > 沒有閒置時間 > nano-flow > 解碼的 CUDA 圖 > 小批次 > 高開銷 > 記錄一次 > 永遠重播 > 2ms → 1.5ms > 代碼庫可讀 > core = 數據結構 > scheduler/ = 大腦 > engine/ = 肌肉 > layers/ = 建築塊 > models/ = llama, qwen > 想要添加一個模型 > 複製 llama 文件 > ~200 行 > 添加架構及其技巧 > 完成 > 想要調整調度 > 調度器文件第 ~172 行 > 選擇你的策略 > 完成 > 想要理解注意力 > attention/fa.py > flash-attn 集成 > 註釋解釋了一切 > linux(主要) > 需要 CUDA > 核心即時編譯 > 如果你在 Windows 上使用 wsl2 > mac 用戶保持生氣 :P > 運行它 > python -m minisgl --model "qwen/qwen3-0.6b" > openai 兼容的 api > 令牌流 > 它就是這樣運行的 > 或者大規模運行 > 70b 在 8x rtx 3090s 上 > --tp 8 > 互動式 shell 也有 > --shell > 在終端中聊天 > /reset 清除歷史 > 很棒的代碼 > 可以運行 > 並且教會你 > 在運行時
Ahmad
2月5日 18:25
十年前,我曾經非常確信 未來的我會非常在意的事情 我錯了 大部分都是噪音 大部分在長期來看並不重要 除了少數幾個 想法、原則和計劃
2
Ahmad
2月5日 16:45
從未如此真實
2
熱門
排行
收藏