热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
💡 领先的推理提供商 — @basetenco, @DeepInfra, @FireworksAI_HQ 和 @togethercompute — 正在通过优化的推理堆栈,利用 NVIDIA Blackwell 平台在各行业中将每个 token 的成本降低多达 10 倍。
通过将 #opensource 前沿智能与 NVIDIA Blackwell 的硬件–软件协同设计以及他们自己优化的推理堆栈相结合,这些提供商为包括 @SullyAI、Latitude、Sentient 和 Decagon 在内的企业提供了显著的 token 成本降低。
🔗

⚡ 由NVIDIA Blackwell提供支持,@togethercompute和@DecagonAI正在加速AI客户服务——在600毫秒内提供类人语音交互,并将成本降低6倍。
借助Together优化的推理堆栈在NVIDIA Blackwell上运行,Decagon在规模上提供实时礼宾体验——每秒处理数百个查询,精度在毫秒级。
🩺 @SullyAI 正在通过 Baseten 的 Model API 改变医疗效率,使用 NVIDIA Blackwell GPU 运行前沿开放模型,如 gpt-oss-120b。
凭借使用 NVIDIA Blackwell、NVFP4、TensorRT-LLM 和 NVIDIA Dynamo 构建的优化推理堆栈,Baseten 实现了 10 倍的成本降低和 65% 更快的响应速度,适用于临床笔记生成等关键工作流程。
@basetenco @DeepInfra @FireworksAI_HQ @togethercompute @DecagonAI @sullyai ⚙️ Latitude 在 DeepInfra 的推理平台上运行大规模的专家混合模型,该平台由 NVIDIA Blackwell GPU、NVFP4 和 TensorRT LLM 提供支持。
DeepInfra 将每百万个令牌的成本从 $0.20 降低到 $0.05 — 效率提升了 4 倍。
为了管理规模和复杂性,@SentientAGI 使用运行在 NVIDIA Blackwell 上的 Fireworks AI 推理平台。通过 @FireworksAI_HQ 的 Blackwell 优化推理堆栈,Sentient 实现了与之前基于 Hopper 的部署相比,成本效率提高了 25-50%。
换句话说,该公司可以在每个 GPU 上以相同的成本服务 25-50% 更多的并发用户。该平台的可扩展性支持了在 24 小时内推出 180 万名等待用户,并在一周内处理了 560 万个查询,同时保持了一致的低延迟。
47
热门
排行
收藏
