💡 Johtavat päättelypalveluntarjoajat — @basetenco, @DeepInfra, @FireworksAI_HQ ja @togethercompute — leikkaavat token-kustannuksia jopa kymmenkertaisesti eri toimialoilla optimoiduilla päättelypinoilla, joita tukee NVIDIA Blackwell -alusta. Yhdistämällä #opensource frontier-älykkyyden NVIDIA Blackwellin laitteisto-ohjelmisto-yhteissuunnitteluun ja omiin optimoituihin päättelypinoihinsa nämä palveluntarjoajat tarjoavat merkittävää token-kustannusten alennuksia yrityksille kuten @SullyAI, Latitude, Sentient ja Decagon. 🔗
⚡ NVIDIA Blackwellin tukemana @togethercompute ja @DecagonAI vauhdittavat tekoälyasiakaspalvelua — tarjoten ihmismäisiä äänivuorovaikutuksia alle 600 ms:ssä ja vähentäen kustannuksia 6-kertaiseksi. Togetherin optimoitu päättelypino, joka toimii NVIDIA Blackwellilla, mahdollistaa reaaliaikaiset concierge-kokemukset laajassa mittakaavassa — käsitellen satoja kyselyitä sekunnissa alle sekunnin tarkkuudella.
🩺 @SullyAI muuttaa terveydenhuollon tehokkuutta Basetenin Model API:n avulla, ajaen rajallisia avoimia malleja kuten gpt-oss-120b NVIDIA Blackwell -näytönohjaimilla. Optimoidun päättelypinon, joka on rakennettu NVIDIA Blackwellin, NVFP4:n, TensorRT-LLM:n ja NVIDIA Dynamon avulla, Baseten tarjosi 10-kertaisen kustannusvähennyksen ja 65 % nopeammat vastaukset keskeisissä työnkuluissa, kuten kliinisten muistiinpanojen laatimisessa.
@basetenco @DeepInfra @FireworksAI_HQ @togethercompute @DecagonAI @sullyai ⚙️ Latitude ajaa laajamittaisia asiantuntijoiden yhdistelmämalleja DeepInfran päättelyalustalla, jota käyttävät NVIDIA Blackwell GPU:t, NVFP4 ja TensorRT LLM. DeepInfra laski miljoonan tokenin hinnan 0,20 dollarista 0,05 dollariin — nelinkertainen tehokkuuden kasvu.
Skaalaamisen ja monimutkaisuuden hallintaan @SentientAGI käyttää NVIDIA Blackwellilla toimivaa Fireworks AI -päättelyalustaa. @FireworksAI_HQ:n Blackwell-optimoidun päättelypinon avulla Sentient saavutti 25–50 % paremman kustannustehokkuuden verrattuna aiempaan Hopper-pohjaiseen käyttöönottoonsa.  Toisin sanoen yritys voisi palvella 25–50 % enemmän samanaikaisia käyttäjiä kummallakin GPU:lla samalla hinnalla. Alustan skaalautuvuus tuki 1,8 miljoonan jonotuslistan käyttäjän viraalista julkaisua 24 tunnissa ja käsitteli 5,6 miljoonaa kyselyä viikossa tarjoten johdonmukaisen matalan viiveen.
105