💡 Các nhà cung cấp suy diễn hàng đầu — @basetenco, @DeepInfra, @FireworksAI_HQ, và @togethercompute — đang giảm chi phí mỗi token lên đến 10 lần trên nhiều ngành công nghiệp với các ngăn xếp suy diễn tối ưu hóa được hỗ trợ bởi nền tảng NVIDIA Blackwell. Bằng cách kết hợp trí tuệ biên giới #opensource với thiết kế phần cứng–phần mềm của NVIDIA Blackwell, và các ngăn xếp suy diễn tối ưu hóa của riêng họ, những nhà cung cấp này đang mang lại sự giảm chi phí token đáng kể cho các doanh nghiệp bao gồm @SullyAI, Latitude, Sentient, và Decagon. 🔗
⚡ Được hỗ trợ bởi NVIDIA Blackwell, @togethercompute và @DecagonAI đang tăng tốc dịch vụ khách hàng AI — cung cấp các tương tác giọng nói giống như con người trong chưa đầy 600 ms và giảm chi phí xuống 6 lần. Với ngăn xếp suy diễn tối ưu của Together chạy trên NVIDIA Blackwell, Decagon cung cấp trải nghiệm concierge thời gian thực quy mô lớn — xử lý hàng trăm yêu cầu mỗi giây với độ chính xác dưới một giây.
🩺 @SullyAI đang chuyển đổi hiệu quả trong lĩnh vực chăm sóc sức khỏe với Model API của Baseten, chạy các mô hình mở tiên tiến như gpt-oss-120b trên GPU NVIDIA Blackwell. Với bộ công cụ suy diễn tối ưu được xây dựng bằng NVIDIA Blackwell, NVFP4, TensorRT-LLM và NVIDIA Dynamo, Baseten đã mang lại giảm chi phí 10 lần và phản hồi nhanh hơn 65% cho các quy trình làm việc quan trọng như tạo ghi chú lâm sàng.
@basetenco @DeepInfra @FireworksAI_HQ @togethercompute @DecagonAI @sullyai ⚙️ Latitude chạy các mô hình hỗn hợp chuyên gia quy mô lớn trên nền tảng suy diễn của DeepInfra, được hỗ trợ bởi GPU NVIDIA Blackwell, NVFP4 và TensorRT LLM. DeepInfra đã giảm chi phí mỗi triệu token từ $0.20 xuống $0.05 — một sự gia tăng hiệu quả 4 lần.
Để quản lý quy mô và độ phức tạp, @SentientAGI sử dụng nền tảng suy diễn AI Fireworks chạy trên NVIDIA Blackwell. Với bộ công cụ suy diễn tối ưu hóa Blackwell của @FireworksAI_HQ, Sentient đã đạt được hiệu quả chi phí tốt hơn từ 25-50% so với triển khai trước đó dựa trên Hopper. Nói cách khác, công ty có thể phục vụ 25–50% người dùng đồng thời nhiều hơn trên mỗi GPU với cùng một chi phí. Khả năng mở rộng của nền tảng đã hỗ trợ một buổi ra mắt viral với 1,8 triệu người dùng trong danh sách chờ trong 24 giờ và xử lý 5,6 triệu truy vấn trong một tuần trong khi vẫn cung cấp độ trễ thấp nhất quán.
109