💡 Os principais fornecedores de inferência — @basetenco, @DeepInfra, @FireworksAI_HQ e @togethercompute — estão reduzindo o custo por token em até 10x em diversas indústrias com pilhas de inferência otimizadas alimentadas pela plataforma NVIDIA Blackwell. Ao combinar inteligência de fronteira #opensource com o co-design de hardware e software da NVIDIA Blackwell, e suas próprias pilhas de inferência otimizadas, esses fornecedores estão proporcionando uma redução dramática no custo dos tokens para empresas como @SullyAI, Latitude, Sentient e Decagon. 🔗
⚡ Alimentado pela NVIDIA Blackwell, @togethercompute e @DecagonAI estão a acelerar o atendimento ao cliente com IA — proporcionando interações de voz semelhantes às humanas em menos de 600 ms e reduzindo custos em 6x. Com a pilha de inferência otimizada da Together a funcionar na NVIDIA Blackwell, a Decagon potencia experiências de concierge em tempo real em grande escala — lidando com centenas de consultas por segundo com precisão de sub-segundo.
🩺 @SullyAI está a transformar a eficiência na saúde com a Model API da Baseten, executando modelos abertos de ponta como gpt-oss-120b em GPUs NVIDIA Blackwell. Com a sua pilha de inferência otimizada construída com NVIDIA Blackwell, NVFP4, TensorRT-LLM e NVIDIA Dynamo, a Baseten proporcionou uma redução de custos de 10x e respostas 65% mais rápidas para fluxos de trabalho chave, como a geração de notas clínicas.
@basetenco @DeepInfra @FireworksAI_HQ @togethercompute @DecagonAI @sullyai ⚙️ A Latitude executa modelos de mistura de especialistas em grande escala na plataforma de inferência da DeepInfra, alimentada por GPUs NVIDIA Blackwell, NVFP4 e TensorRT LLM. A DeepInfra reduziu o custo por milhão de tokens de $0.20 para $0.05 — um ganho de eficiência de 4x.
Para gerir a escala e a complexidade, a @SentientAGI utiliza a plataforma de inferência Fireworks AI, que funciona na NVIDIA Blackwell. Com a pilha de inferência otimizada para Blackwell da @FireworksAI_HQ, a Sentient alcançou uma eficiência de custo 25-50% melhor em comparação com a sua implementação anterior baseada em Hopper. Em outras palavras, a empresa poderia atender 25–50% mais usuários simultâneos em cada GPU pelo mesmo custo. A escalabilidade da plataforma suportou um lançamento viral de 1,8 milhões de usuários em lista de espera em 24 horas e processou 5,6 milhões de consultas em uma única semana, enquanto entregava uma latência consistentemente baixa.
106