💡 Les principaux fournisseurs d'inférence — @basetenco, @DeepInfra, @FireworksAI_HQ et @togethercompute — réduisent le coût par token jusqu'à 10x dans divers secteurs grâce à des piles d'inférence optimisées alimentées par la plateforme NVIDIA Blackwell. En combinant l'intelligence de pointe #opensource avec le codesign matériel–logiciel de NVIDIA Blackwell, et leurs propres piles d'inférence optimisées, ces fournisseurs offrent une réduction spectaculaire des coûts de tokens pour des entreprises telles que @SullyAI, Latitude, Sentient et Decagon. 🔗
⚡ Propulsé par NVIDIA Blackwell, @togethercompute et @DecagonAI accélèrent le service client AI — offrant des interactions vocales semblables à celles des humains en moins de 600 ms et réduisant les coûts par 6x. Avec la pile d'inférence optimisée de Together fonctionnant sur NVIDIA Blackwell, Decagon alimente des expériences de conciergerie en temps réel à grande échelle — gérant des centaines de requêtes par seconde avec une précision inférieure à la seconde.
🩺 @SullyAI transforme l'efficacité des soins de santé avec l'API Model de Baseten, exécutant des modèles ouverts de pointe comme gpt-oss-120b sur des GPU NVIDIA Blackwell. Avec leur pile d'inférence optimisée construite en utilisant NVIDIA Blackwell, NVFP4, TensorRT-LLM et NVIDIA Dynamo, Baseten a réalisé une réduction des coûts de 10x et des réponses 65% plus rapides pour des flux de travail clés tels que la génération de notes cliniques.
@basetenco @DeepInfra @FireworksAI_HQ @togethercompute @DecagonAI @sullyai ⚙️ Latitude exécute des modèles de mélange d'experts à grande échelle sur la plateforme d'inférence de DeepInfra, alimentée par des GPU NVIDIA Blackwell, NVFP4 et TensorRT LLM. DeepInfra a réduit le coût par million de tokens de 0,20 $ à 0,05 $ — un gain d'efficacité de 4x.
Pour gérer l'échelle et la complexité, @SentientAGI utilise la plateforme d'inférence Fireworks AI fonctionnant sur NVIDIA Blackwell. Avec la pile d'inférence optimisée pour Blackwell de @FireworksAI_HQ, Sentient a atteint une efficacité de coût de 25 à 50 % supérieure par rapport à son déploiement précédent basé sur Hopper. En d'autres termes, l'entreprise pouvait servir 25 à 50 % d'utilisateurs concurrents supplémentaires sur chaque GPU pour le même coût. La scalabilité de la plateforme a soutenu un lancement viral de 1,8 million d'utilisateurs en liste d'attente en 24 heures et a traité 5,6 millions de requêtes en une seule semaine tout en offrant une latence faible et constante.
110