一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

nanochat 現在可以以 <<$100 (~$73，單個 8XH100 節點上 3 小時) 的價格訓練 GPT-2 級別的 LLM。 GPT-2 是我最喜歡的 LLM，因為這是 LLM 堆疊首次以可識別的現代形式結合在一起。因此，我對以更便宜的價格訓練一個具備 GPT-2 能力的模型產生了一種奇怪且持久的癖好，受益於大約 7 年的進步。特別是，我懷疑今天應該可以以 <<$100 的價格訓練一個。最初在 2019 年，GPT-2 是由 OpenAI 在 32 個 TPU v3 芯片上訓練的，持續 168 小時（7 天），當時的價格是每小時 $8/TPUv3，總成本約為 $43K。它達到了 0.256525 的 CORE 分數，這是一個在 DCLM 論文中引入的集成指標，基於 22 次評估，如 ARC/MMLU 等。隨著最近幾次合併到 nanochat 的改進（其中許多源自 modded-nanogpt 倉庫），我現在可以在單個 8XH100 節點上以 3.04 小時 (~$73) 的時間達到更高的 CORE 分數。這是 7 年來成本降低的 600 倍，即訓練 GPT-2 的成本每年大約下降 2.5 倍。我認為這可能是低估，因為我仍然相對定期地發現更多的改進，並且我有一堆更多的想法待嘗試。一篇更長的帖子詳細介紹了涉及的優化細節以及如何重現的指導在這裡：受到 modded-nanogpt 的啟發，我還創建了一個 "時間到 GPT-2" 的排行榜，其中這個第一個 "Jan29" 模型是第 1 項，耗時 3.04 小時。進一步迭代這個將會很有趣，我歡迎幫助！我希望 nanochat 能夠成長為一個非常好/乾淨且調整過的實驗 LLM 平台，用於原型設計、娛樂，當然還有學習。那些能夠立即產生增益的最大改進是 1) Flash Attention 3 核心（更快，並允許 window_size kwarg 獲得交替注意模式）、Muon 優化器（我嘗試了大約 1 天刪除它並僅使用 AdamW，但我做不到）、由可學習標量控制的殘差路徑和跳過連接，以及值嵌入。還有許多其他較小的改進累積起來。圖片：與當前 nanochat 模型迷你系列的縮放法則推導相關的半相關視覺效果，既美觀又令人滿意！