DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

💡 Führende Anbieter von Inferenzdiensten — @basetenco, @DeepInfra, @FireworksAI_HQ und @togethercompute — senken die Kosten pro Token um bis zu 10x in verschiedenen Branchen mit optimierten Inferenz-Stacks, die von der NVIDIA Blackwell-Plattform unterstützt werden. Durch die Kombination von #opensource Grenzintelligenz mit der Hardware-Software-Codesign von NVIDIA Blackwell und ihren eigenen optimierten Inferenz-Stacks liefern diese Anbieter eine dramatische Senkung der Token-Kosten für Unternehmen wie @SullyAI, Latitude, Sentient und Decagon. 🔗

⚡ Angetrieben von NVIDIA Blackwell beschleunigen @togethercompute und @DecagonAI den KI-Kundenservice – sie liefern menschenähnliche Sprachinteraktionen in unter 600 ms und senken die Kosten um das 6-fache. Mit dem optimierten Inferenz-Stack von Together, der auf NVIDIA Blackwell läuft, ermöglicht Decagon skalierbare Echtzeit-Concierge-Erlebnisse – es werden Hunderte von Anfragen pro Sekunde mit sub-sekündlicher Präzision bearbeitet.

🩺 @SullyAI transformiert die Effizienz im Gesundheitswesen mit der Model API von Baseten, die fortschrittliche offene Modelle wie gpt-oss-120b auf NVIDIA Blackwell GPUs ausführt. Mit ihrem optimierten Inferenz-Stack, der mit NVIDIA Blackwell, NVFP4, TensorRT-LLM und NVIDIA Dynamo aufgebaut wurde, hat Baseten eine Kostenreduktion von 10x und 65% schnellere Antworten für wichtige Arbeitsabläufe wie die Erstellung klinischer Notizen erzielt.

@basetenco @DeepInfra @FireworksAI_HQ @togethercompute @DecagonAI @sullyai ⚙️ Latitude führt großangelegte Mischmodelle von Experten auf der Inferenzplattform von DeepInfra aus, die von NVIDIA Blackwell GPUs, NVFP4 und TensorRT LLM betrieben wird. DeepInfra hat die Kosten pro Million Tokens von 0,20 $ auf 0,05 $ gesenkt – ein Effizienzgewinn von 4x.

Um Skalierung und Komplexität zu bewältigen, nutzt @SentientAGI die Fireworks AI-Inferenzplattform, die auf NVIDIA Blackwell läuft. Mit dem Blackwell-optimierten Inferenz-Stack von @FireworksAI_HQ erzielte Sentient eine 25-50% bessere Kosteneffizienz im Vergleich zu seiner vorherigen Hopper-basierten Bereitstellung. Anders ausgedrückt, konnte das Unternehmen 25–50% mehr gleichzeitige Nutzer auf jeder GPU zu den gleichen Kosten bedienen. Die Skalierbarkeit der Plattform unterstützte einen viralen Start von 1,8 Millionen wartenden Nutzern in 24 Stunden und verarbeitete 5,6 Millionen Anfragen in einer einzigen Woche, während sie eine konstant niedrige Latenz lieferte.

123

Top

Ranking

Favoriten