一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

💡 領先的推理提供商 — @basetenco, @DeepInfra, @FireworksAI_HQ 和 @togethercompute — 正在通過優化的推理堆疊，利用 NVIDIA Blackwell 平台在各行各業中將每個令牌的成本降低多達 10 倍。通過將 #opensource 前沿智能與 NVIDIA Blackwell 的硬體–軟體共同設計以及他們自己的優化推理堆疊相結合，這些提供商為包括 @SullyAI、Latitude、Sentient 和 Decagon 在內的企業提供了顯著的令牌成本降低。 🔗

⚡ 由 NVIDIA Blackwell 提供動力，@togethercompute 和 @DecagonAI 正在加速 AI 客戶服務 — 在 600 毫秒內提供類似人類的語音互動，並將成本降低 6 倍。借助 Together 的優化推理堆疊在 NVIDIA Blackwell 上運行，Decagon 以規模提供實時禮賓服務體驗 — 每秒處理數百個查詢，精確度在毫秒級。

🩺 @SullyAI 正在利用 Baseten 的模型 API 改變醫療保健的效率，運行像 gpt-oss-120b 這樣的前沿開放模型，並使用 NVIDIA Blackwell GPU。通過使用 NVIDIA Blackwell、NVFP4、TensorRT-LLM 和 NVIDIA Dynamo 構建的優化推理堆棧，Baseten 實現了 10 倍的成本降低和 65% 更快的關鍵工作流程響應，例如臨床筆記生成。

@basetenco @DeepInfra @FireworksAI_HQ @togethercompute @DecagonAI @sullyai ⚙️ Latitude 在 DeepInfra 的推理平台上運行大規模的專家混合模型，該平台由 NVIDIA Blackwell GPU、NVFP4 和 TensorRT LLM 提供支持。 DeepInfra 將每百萬個標記的成本從 $0.20 降至 $0.05 — 效率提升了 4 倍。

為了管理規模和複雜性，@SentientAGI 使用運行在 NVIDIA Blackwell 上的 Fireworks AI 推理平台。通過 @FireworksAI_HQ 的 Blackwell 優化推理堆疊，Sentient 在成本效率上比之前基於 Hopper 的部署提高了 25-50%。換句話說，該公司可以在每個 GPU 上以相同的成本服務 25-50% 更多的同時用戶。該平台的可擴展性支持了 24 小時內 180 萬名候補用戶的病毒式推出，並在一週內處理了 560 萬個查詢，同時提供了一致的低延遲。