💡 主要な推論プロバイダーである@basetenco、@DeepInfra、@FireworksAI_HQ、@togethercomputeは、NVIDIA Blackwellプラットフォームを活用した最適化された推論スタックを用いて、業界全体でトークンあたりのコストを最大10倍削減しています。 #opensource フロンティアインテリジェンスとNVIDIA Blackwellのハードウェア・ソフトウェア共同設計、そして自社の最適化された推論スタックを組み合わせることで、これらのプロバイダーは@SullyAI、Latitude、Sentient、Decagonなどの企業に対して劇的なトークンコスト削減を実現しています。 🔗
⚡ NVIDIA Blackwellの支援を受け、@togethercomputeと@DecagonAIはAIカスタマーサービスを加速させ、人間のような音声操作を600ms未満で提供し、コストを6倍に削減しています。 Togetherの最適化された推論スタックをNVIDIA Blackwell上で稼働させることで、Decagonはリアルタイムのコンシェルジュ体験を大規模に実現し、毎秒数百件のクエリを秒単位の精度で処理します。
🩺 @SullyAIはBasetenのModel APIを使って医療の効率化を変革し、NVIDIA Blackwell GPU上でGPT-OSS-120bのような最先端のオープンモデルを動かしています。 NVIDIA Blackwell、NVFP4、TensorRT-LLM、NVIDIA Dynamoを用いて最適化された推論スタックを構築し、Basetenは臨床ノート生成などの主要ワークフローでコスト削減と65%の高速応答を実現しました。
@basetenco @DeepInfra @FireworksAI_HQ @togethercompute @DecagonAI @sullyai ⚙️ Latitudeは、NVIDIA Blackwell GPU、NVFP4、TensorRT LLMを搭載したDeepInfraの推論プラットフォーム上で大規模な専門家混合モデルを運用しています。 DeepInfraは100万トークンあたりのコストを0.20ドルから0.05ドルに削減し、効率が4倍向上しました。
スケールと複雑さを管理するために、@SentientAGI NVIDIA Blackwell上で動作するFireworks AI推論プラットフォームを使用しています。@FireworksAI_HQのBlackwell最適化推論スタックにより、Sentientは以前のHopperベースの展開と比べて25〜50%のコスト効率向上を実現しました。 つまり、同じコストで各GPUで25〜50%多くの同時利用者に対応できるということです。プラットフォームのスケーラビリティにより、24時間で180万人のウェイトリストユーザーをバイラルリリースし、1週間で560万件の問い合わせを処理しつつ、安定した低遅延を実現しました。
106