Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

💡 Провідні постачальники інференцій — @basetenco, @DeepInfra, @FireworksAI_HQ та @togethercompute — знижують вартість токена до 10 разів у різних галузях завдяки оптимізованим стекам інференції, що працюють на платформі NVIDIA Blackwell. Поєднуючи #opensource передовий інтелект із апаратно-програмним кодизайном NVIDIA Blackwell та власними оптимізованими стеками інференцій, ці провайдери забезпечують значне зниження вартості токена для таких компаній, як @SullyAI, Latitude, Sentient і Decagon. 🔗

⚡ На базі NVIDIA Blackwell @togethercompute та @DecagonAI прискорюють обслуговування клієнтів на основі штучного інтелекту — забезпечуючи людські голосові взаємодії менш ніж за 600 мс і знижуючи витрати у 6 разів швидше. Завдяки оптимізованому стеку висновків Together на NVIDIA Blackwell, Decagon забезпечує масштабні консьєрж-досвіди в реальному часі — обробляючи сотні запитів на секунду з точністю менше секунди.

🩺 @SullyAI трансформує ефективність у сфері охорони здоров'я за допомогою API Model від Baseten, запускаючи відкриті моделі фронтиру, такі як gpt-oss-120b, на графічних процесорах NVIDIA Blackwell. Завдяки оптимізованому стеку інференції, побудованому на основі NVIDIA Blackwell, NVFP4, TensorRT-LLM та NVIDIA Dynamo, Baseten забезпечила 10-кратне зниження вартості та 65% швидші відповіді для ключових робочих процесів, таких як генерація клінічних нотаток.

@basetenco @DeepInfra @FireworksAI_HQ @togethercompute @DecagonAI @sullyai ⚙️ Latitude запускає масштабні моделі експертів на платформі інференції DeepInfra, що працює на NVIDIA Blackwell GPU, NVFP4 та TensorRT LLM. DeepInfra знизила вартість за мільйон токенів з $0.20 до $0.05 — що стало 4-кратним підвищенням ефективності.

Для керування масштабом і складністю @SentientAGI використовує платформу Fireworks AI inference, що працює на NVIDIA Blackwell. Завдяки оптимізованому для Blackwell стеку інференцій від @FireworksAI_HQ Sentient досягла на 25-50% кращої економічної ефективності порівняно з попереднім розгортанням на базі Hopper. Іншими словами, компанія могла б обслуговувати на 25–50% більше одночасних користувачів на кожному GPU за ту ж ціну. Масштабованість платформи підтримувала вірусний запуск 1,8 мільйона користувачів зі списку очікування за 24 години та обробку 5,6 мільйона запитів за тиждень, забезпечуючи стабільну низьку затримку.

Найкращі

Рейтинг

Вибране