A compressão de modelos de IA acabou de tornar a inferência onchain economicamente viável pela primeira vez. Rodar um modelo de parâmetros de 7B costumava custar $2-3 por chamada de inferência quando você considerava as taxas de gás e a sobrecarga computacional. Esse preço faz com que qualquer aplicativo de IA voltado para o consumidor fique morto desde o início. Você não pode criar um chatbot que custe $2 por mensagem para os usuários. A economia nunca funcionou. Técnicas de quantização e poda comprimem os modelos para 1-2B parâmetros sem perder muita precisão. De repente, os custos de inferência caem para $0,10-0,20 por chamada. Ainda não é gratuito, mas agora você está na faixa em que modelos de micropagamento se tornam viáveis. Os usuários podem pagar frações de centavo por interação, os desenvolvedores podem cobrir custos sem subsídios de capital de risco, e a economia unitária realmente fecha. Quando a inferência fica barata o suficiente para suportar aplicações reais, não apenas demos, você desbloqueia um espaço de design completamente diferente. Agentes de IA que vivem totalmente onchain, interagem continuamente com os usuários e não exigem dependências centralizadas de API. É aí que a DeAI deixa de ser um projeto de pesquisa e passa a ser infraestrutura. Cuidado 0G.