DApp Store | Centrum Web3 pro události a hry

Populární témata

💡 Přední poskytovatelé inference — @basetenco, @DeepInfra, @FireworksAI_HQ a @togethercompute — snižují náklady na token až desetkrát napříč odvětvími díky optimalizovaným inferenčním stackům poháněným platformou NVIDIA Blackwell. Kombinací #opensource Frontier Intelligence s hardware-software kodesignem NVIDIA Blackwell a vlastními optimalizovanými inferenčními stacky tito poskytovatelé přinášejí dramatické snížení nákladů na tokeny pro firmy jako @SullyAI, Latitude, Sentient a Decagon. 🔗

⚡ Díky NVIDIA Blackwell zrychlují @togethercompute a @DecagonAI zákaznickou podporu AI — poskytují hlasové interakce podobné lidskému v čase pod 600 ms a snižují náklady šestinásobně. S optimalizovaným inferenčním stackem Together běžícím na NVIDIA Blackwell Decagon pohání real-time concierge zážitky ve velkém měřítku — zpracovává stovky dotazů za sekundu s přesností pod sekundu.

🩺 @SullyAI mění efektivitu zdravotnictví díky Model API od Baseten, kde běží na frontier open modelech jako gpt-oss-120b na grafických GPU NVIDIA Blackwell. Díky optimalizovanému inferenčnímu stacku vytvořenému pomocí NVIDIA Blackwell, NVFP4, TensorRT-LLM a NVIDIA Dynamo Baseten přinesl 10x snížení nákladů a 65% rychlejší odpovědi pro klíčové workflow, jako je generování klinických poznámek.

@basetenco @DeepInfra @FireworksAI_HQ @togethercompute @DecagonAI @sullyai ⚙️ Latitude provozuje rozsáhlé modely směsi expertů na inferenční platformě DeepInfra, poháněné grafickými kartami NVIDIA Blackwell, NVFP4 a TensorRT LLM. DeepInfra snížila náklady na milion tokenů z 0,20 na 0,05 USD — což je čtyřnásobný nárůst efektivity.

Pro řízení škálování a složitosti @SentientAGI používá inferenční platformu Fireworks AI běžící na NVIDIA Blackwell. Díky inferenčnímu stacku optimalizovanému Blackwellu od @FireworksAI_HQ dosáhl Sentient o 25–50 % lepší nákladové efektivity ve srovnání s předchozím nasazením založeným na Hopperu. Jinými slovy, společnost by mohla obsluhovat o 25–50 % více současných uživatelů na každé GPU za stejnou cenu. Škálovatelnost platformy umožnila virální spuštění 1,8 milionu uživatelů na čekací listině během 24 hodin a zpracování 5,6 milionu dotazů za jediný týden při zajištění konzistentně nízké latence.

101

Top

Hodnocení

Oblíbené