Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
💡 Přední poskytovatelé inference — @basetenco, @DeepInfra, @FireworksAI_HQ a @togethercompute — snižují náklady na token až desetkrát napříč odvětvími díky optimalizovaným inferenčním stackům poháněným platformou NVIDIA Blackwell.
Kombinací #opensource Frontier Intelligence s hardware-software kodesignem NVIDIA Blackwell a vlastními optimalizovanými inferenčními stacky tito poskytovatelé přinášejí dramatické snížení nákladů na tokeny pro firmy jako @SullyAI, Latitude, Sentient a Decagon.
🔗

⚡ Díky NVIDIA Blackwell zrychlují @togethercompute a @DecagonAI zákaznickou podporu AI — poskytují hlasové interakce podobné lidskému v čase pod 600 ms a snižují náklady šestinásobně.
S optimalizovaným inferenčním stackem Together běžícím na NVIDIA Blackwell Decagon pohání real-time concierge zážitky ve velkém měřítku — zpracovává stovky dotazů za sekundu s přesností pod sekundu.
🩺 @SullyAI mění efektivitu zdravotnictví díky Model API od Baseten, kde běží na frontier open modelech jako gpt-oss-120b na grafických GPU NVIDIA Blackwell.
Díky optimalizovanému inferenčnímu stacku vytvořenému pomocí NVIDIA Blackwell, NVFP4, TensorRT-LLM a NVIDIA Dynamo Baseten přinesl 10x snížení nákladů a 65% rychlejší odpovědi pro klíčové workflow, jako je generování klinických poznámek.
@basetenco @DeepInfra @FireworksAI_HQ @togethercompute @DecagonAI @sullyai ⚙️ Latitude provozuje rozsáhlé modely směsi expertů na inferenční platformě DeepInfra, poháněné grafickými kartami NVIDIA Blackwell, NVFP4 a TensorRT LLM.
DeepInfra snížila náklady na milion tokenů z 0,20 na 0,05 USD — což je čtyřnásobný nárůst efektivity.
Pro řízení škálování a složitosti @SentientAGI používá inferenční platformu Fireworks AI běžící na NVIDIA Blackwell. Díky inferenčnímu stacku optimalizovanému Blackwellu od @FireworksAI_HQ dosáhl Sentient o 25–50 % lepší nákladové efektivity ve srovnání s předchozím nasazením založeným na Hopperu.
Jinými slovy, společnost by mohla obsluhovat o 25–50 % více současných uživatelů na každé GPU za stejnou cenu. Škálovatelnost platformy umožnila virální spuštění 1,8 milionu uživatelů na čekací listině během 24 hodin a zpracování 5,6 milionu dotazů za jediný týden při zajištění konzistentně nízké latence.
101
Top
Hodnocení
Oblíbené
