一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

💡 领先的推理提供商 — @basetenco, @DeepInfra, @FireworksAI_HQ 和 @togethercompute — 正在通过优化的推理堆栈，利用 NVIDIA Blackwell 平台在各行业中将每个 token 的成本降低多达 10 倍。通过将 #opensource 前沿智能与 NVIDIA Blackwell 的硬件–软件协同设计以及他们自己优化的推理堆栈相结合，这些提供商为包括 @SullyAI、Latitude、Sentient 和 Decagon 在内的企业提供了显著的 token 成本降低。 🔗

⚡ 由NVIDIA Blackwell提供支持，@togethercompute和@DecagonAI正在加速AI客户服务——在600毫秒内提供类人语音交互，并将成本降低6倍。借助Together优化的推理堆栈在NVIDIA Blackwell上运行，Decagon在规模上提供实时礼宾体验——每秒处理数百个查询，精度在毫秒级。

🩺 @SullyAI 正在通过 Baseten 的 Model API 改变医疗效率，使用 NVIDIA Blackwell GPU 运行前沿开放模型，如 gpt-oss-120b。凭借使用 NVIDIA Blackwell、NVFP4、TensorRT-LLM 和 NVIDIA Dynamo 构建的优化推理堆栈，Baseten 实现了 10 倍的成本降低和 65% 更快的响应速度，适用于临床笔记生成等关键工作流程。

@basetenco @DeepInfra @FireworksAI_HQ @togethercompute @DecagonAI @sullyai ⚙️ Latitude 在 DeepInfra 的推理平台上运行大规模的专家混合模型，该平台由 NVIDIA Blackwell GPU、NVFP4 和 TensorRT LLM 提供支持。 DeepInfra 将每百万个令牌的成本从 $0.20 降低到 $0.05 — 效率提升了 4 倍。

为了管理规模和复杂性，@SentientAGI 使用运行在 NVIDIA Blackwell 上的 Fireworks AI 推理平台。通过 @FireworksAI_HQ 的 Blackwell 优化推理堆栈，Sentient 实现了与之前基于 Hopper 的部署相比，成本效率提高了 25-50%。换句话说，该公司可以在每个 GPU 上以相同的成本服务 25-50% 更多的并发用户。该平台的可扩展性支持了在 24 小时内推出 180 万名等待用户，并在一周内处理了 560 万个查询，同时保持了一致的低延迟。