💡 Wiodący dostawcy inferencji — @basetenco, @DeepInfra, @FireworksAI_HQ i @togethercompute — obniżają koszty na token o nawet 10x w różnych branżach dzięki zoptymalizowanym stosom inferencyjnym zasilanym przez platformę NVIDIA Blackwell. Łącząc #opensource inteligencję na froncie z hardware’owo-programowym współprojektowaniem NVIDIA Blackwell oraz własnymi zoptymalizowanymi stosami inferencyjnymi, ci dostawcy dostarczają dramatyczne obniżenie kosztów tokenów dla firm, w tym @SullyAI, Latitude, Sentient i Decagon. 🔗
⚡ Napędzane przez NVIDIA Blackwell, @togethercompute i @DecagonAI przyspieszają obsługę klienta AI — dostarczając interakcje głosowe przypominające ludzkie w czasie poniżej 600 ms i obniżając koszty o 6x. Dzięki zoptymalizowanemu stosowi wnioskowania Together działającemu na NVIDIA Blackwell, Decagon zapewnia doświadczenia concierge w czasie rzeczywistym na dużą skalę — obsługując setki zapytań na sekundę z precyzją poniżej sekundy.
🩺 @SullyAI przekształca efektywność opieki zdrowotnej dzięki Model API Baseten, uruchamiając nowatorskie modele open, takie jak gpt-oss-120b na GPU NVIDIA Blackwell. Dzięki zoptymalizowanemu stosowi inferencyjnemu zbudowanemu przy użyciu NVIDIA Blackwell, NVFP4, TensorRT-LLM i NVIDIA Dynamo, Baseten osiągnął 10-krotną redukcję kosztów i 65% szybsze odpowiedzi dla kluczowych procesów roboczych, takich jak generowanie notatek klinicznych.
@basetenco @DeepInfra @FireworksAI_HQ @togethercompute @DecagonAI @sullyai ⚙️ Latitude uruchamia modele mieszane dużej skali na platformie inferencyjnej DeepInfra, zasilanej przez GPU NVIDIA Blackwell, NVFP4 i TensorRT LLM. DeepInfra obniżył koszt za milion tokenów z 0,20 USD do 0,05 USD — co daje 4-krotny wzrost efektywności.
Aby zarządzać skalą i złożonością, @SentientAGI korzysta z platformy inferencyjnej Fireworks AI działającej na NVIDIA Blackwell. Dzięki zoptymalizowanemu stosowi inferencyjnemu Blackwell od @FireworksAI_HQ, Sentient osiągnął 25-50% lepszą efektywność kosztową w porównaniu do wcześniejszego wdrożenia opartego na Hopperze.  Innymi słowy, firma mogła obsługiwać 25–50% więcej jednoczesnych użytkowników na każdym GPU za te same koszty. Skalowalność platformy wspierała wirusowe uruchomienie 1,8 miliona użytkowników na liście oczekujących w ciągu 24 godzin i przetworzyła 5,6 miliona zapytań w ciągu jednego tygodnia, zapewniając jednocześnie stałą niską latencję.
120