💡 Los principales proveedores de inferencia — @basetenco, @DeepInfra, @FireworksAI_HQ y @togethercompute — están reduciendo el coste por token hasta 10 veces en diferentes industrias gracias a pilas de inferencia optimizadas impulsadas por la plataforma NVIDIA Blackwell. Al combinar #opensource inteligencia de vanguardia con el codiseño hardware–software de NVIDIA Blackwell y sus propias pilas de inferencia optimizadas, estos proveedores están ofreciendo una reducción drástica del coste de tokens para empresas como @SullyAI, Latitude, Sentient y Decagon. 🔗
⚡ Impulsados por NVIDIA Blackwell, @togethercompute y @DecagonAI están acelerando el servicio al cliente con IA — ofreciendo interacciones de voz similares a las humanas en menos de 600 ms y reduciendo costes en 6 veces. Con la pila de inferencias optimizada de Together funcionando en NVIDIA Blackwell, Decagon impulsa experiencias de conserjería en tiempo real a gran escala, gestionando cientos de consultas por segundo con precisión de menos de un segundo.
🩺 @SullyAI está transformando la eficiencia sanitaria con la Model API de Baseten, ejecutando modelos abiertos de vanguardia como gpt-oss-120b en GPUs NVIDIA Blackwell. Con su pila de inferencia optimizada construida usando NVIDIA Blackwell, NVFP4, TensorRT-LLM y NVIDIA Dynamo, Baseten logró una reducción de costes de 10 veces y respuestas un 65% más rápidas para flujos de trabajo clave como la generación de notas clínicas.
@basetenco @DeepInfra @FireworksAI_HQ @togethercompute @DecagonAI @sullyai ⚙️ Latitude ejecuta modelos a gran escala con una mezcla de expertos en la plataforma de inferencia de DeepInfra, impulsada por GPUs NVIDIA Blackwell, NVFP4 y TensorRT LLM. DeepInfra redujo el coste por millón de tokens de 0,20 a 0,05 dólares, una mejora de eficiencia de 4 veces.
Para gestionar la escala y la complejidad, @SentientAGI utiliza la plataforma de inferencia AI Fireworks, que funciona en NVIDIA Blackwell. Con la pila de inferencia optimizada para Blackwell de @FireworksAI_HQ, Sentient logró una eficiencia de costes entre un 25 y un 50% superior en comparación con su despliegue anterior basado en Hopper.  En otras palabras, la empresa podría atender entre un 25 y un 50% más de usuarios concurrentes en cada GPU por el mismo coste. La escalabilidad de la plataforma soportó un lanzamiento viral de 1,8 millones de usuarios en lista de espera en 24 horas y procesó 5,6 millones de consultas en una sola semana, ofreciendo una latencia baja y constante.
55