A compressão de modelos de IA tornou a inferência onchain economicamente viável pela primeira vez. Executar um modelo de 7B parâmetros costumava custar $2-3 por chamada de inferência quando se considera as taxas de gás e os custos de computação. Esse preço torna qualquer aplicação de IA voltada para o consumidor inviável desde o início. Não se pode construir um chatbot que custe aos usuários $2 por mensagem. A economia nunca funcionou. Técnicas de quantização e poda comprimem modelos para 1-2B parâmetros sem perder muita precisão. De repente, os custos de inferência caem para $0.10-0.20 por chamada. Ainda não é gratuito, mas agora você está na faixa onde modelos de micropagamento se tornam viáveis. Os usuários podem pagar frações de centavo por interação, os desenvolvedores podem cobrir custos sem subsídios de capital de risco, e a economia unitária realmente se fecha. Quando a inferência se torna barata o suficiente para suportar aplicações reais, não apenas demonstrações, você desbloqueia um espaço de design completamente diferente. Agentes de IA que vivem totalmente onchain, interagem com os usuários continuamente e não requerem dependências de API centralizadas. É quando o DeAI deixa de ser um projeto de pesquisa e começa a ser infraestrutura. Assista 0G.