💡 I principali fornitori di inferenza — @basetenco, @DeepInfra, @FireworksAI_HQ e @togethercompute — stanno riducendo il costo per token fino a 10 volte in vari settori grazie a stack di inferenza ottimizzati alimentati dalla piattaforma NVIDIA Blackwell. Combinando l'intelligenza di frontiera #opensource con il design hardware-software di NVIDIA Blackwell e i loro stack di inferenza ottimizzati, questi fornitori stanno offrendo una drammatica riduzione dei costi per token per aziende come @SullyAI, Latitude, Sentient e Decagon. 🔗
⚡ Alimentato da NVIDIA Blackwell, @togethercompute e @DecagonAI stanno accelerando il servizio clienti AI — offrendo interazioni vocali simili a quelle umane in meno di 600 ms e riducendo i costi di 6 volte. Con lo stack di inferenza ottimizzato di Together che gira su NVIDIA Blackwell, Decagon alimenta esperienze di concierge in tempo reale su larga scala — gestendo centinaia di richieste al secondo con precisione sub-secondo.
🩺 @SullyAI sta trasformando l'efficienza sanitaria con l'API Model di Baseten, eseguendo modelli open di frontiera come gpt-oss-120b su GPU NVIDIA Blackwell. Con il loro stack di inferenza ottimizzato costruito utilizzando NVIDIA Blackwell, NVFP4, TensorRT-LLM e NVIDIA Dynamo, Baseten ha fornito una riduzione dei costi del 10x e risposte più rapide del 65% per flussi di lavoro chiave come la generazione di note cliniche.
@basetenco @DeepInfra @FireworksAI_HQ @togethercompute @DecagonAI @sullyai ⚙️ Latitude esegue modelli di grande scala a miscela di esperti sulla piattaforma di inferenza di DeepInfra, alimentata da GPU NVIDIA Blackwell, NVFP4 e TensorRT LLM. DeepInfra ha ridotto il costo per milione di token da $0.20 a $0.05 — un guadagno di efficienza di 4 volte.
Per gestire la scala e la complessità, @SentientAGI utilizza la piattaforma di inferenza Fireworks AI che gira su NVIDIA Blackwell. Con lo stack di inferenza ottimizzato per Blackwell di @FireworksAI_HQ, Sentient ha raggiunto un'efficienza dei costi migliore del 25-50% rispetto alla sua precedente implementazione basata su Hopper.  In altre parole, l'azienda potrebbe servire il 25-50% di utenti concorrenti in più su ogni GPU per lo stesso costo. La scalabilità della piattaforma ha supportato un lancio virale di 1,8 milioni di utenti in lista d'attesa in 24 ore e ha elaborato 5,6 milioni di query in una sola settimana, mantenendo una latenza bassa e costante.
100