一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

Andrej Karpathy

建築@EurekaLabsAI。曾任 AI 總監 @ 特斯拉，創始團隊 @ OpenAI，CS231n/PhD @ 史丹佛大學。我喜歡訓練大型深層神經網路。

啟用了 fp8 訓練，使 "時間到 GPT-2" 改善了 +4.3%，現在降至 2.91 小時。還值得注意的是，如果使用 8XH100 的現貨實例價格，這個 GPT-2 重現實際上只需花費約 $20。所以這真是令人興奮 - GPT-2（7 年前）：太危險而無法釋放。 GPT-2（今天）：新的 MNIST！ :) 這肯定可以低於 1 小時。關於 fp8 的幾句話，它比我預期的要棘手一些，我花了一段時間才達到這一點，即使現在我也不完全確定這是否是個好主意，因為對它的整體支持較少。從理論上講，H100 上的 fp8 是 2 倍的 FLOPS，但在實踐中要少得多。我們在實際訓練過程中並不是 100% 計算受限，因為增加的規模轉換會帶來額外的開銷，GPT-2 的 GEMMs 大小不足以使開銷明顯值得，當然 - 在較低的精度下，每一步的質量較小。對於行級擴展配方，fp8 與 bf16 的損失曲線相當接近，但步伐明顯較慢。對於張量級擴展，損失曲線分離得更多（即每一步的質量較差），但至少我們現在獲得了約 7.3% 的加速。你可以天真地通過增加訓練範圍來恢復性能（你訓練更多步驟，但每一步更快），並希望最終能有所收穫。在這種情況下，總體來說，稍微調整這些配方和訓練範圍，到目前為止我得到了約 5% 的加速。torchao 在他們的論文中報告 Llama3-8B fp8 訓練加速 25%（相比我的 ~7.3%，未考慮能力），這更接近我最初的期望，儘管 Llama3-8B 是一個更大的模型。這可能不是 fp8 史詩的結束。通過精確選擇應用它的層，並在整個網絡中更小心地處理數字，應該有可能改善情況。