La compresión de modelos de IA acaba de hacer que la inferencia en cadena sea económicamente viable por primera vez. Ejecutar un modelo de 7B parámetros solía costar entre $2 y $3 por llamada de inferencia cuando se tienen en cuenta las tarifas de gas y los costos de computación. Ese precio hace que cualquier aplicación de IA orientada al consumidor esté condenada al fracaso. No puedes construir un chatbot que cueste a los usuarios $2 por mensaje. La economía nunca funcionó. Las técnicas de cuantización y poda comprimen modelos a 1-2B parámetros sin perder mucha precisión. De repente, los costos de inferencia caen a $0.10-0.20 por llamada. Aún no es gratis, pero ahora estás en el rango donde los modelos de micropagos se vuelven viables. Los usuarios pueden pagar fracciones de centavo por interacción, los desarrolladores pueden cubrir costos sin subsidios de capital de riesgo, y la economía unitaria realmente se cierra. Cuando la inferencia se vuelve lo suficientemente barata como para soportar aplicaciones reales, no solo demostraciones, desbloqueas un espacio de diseño completamente diferente. Agentes de IA que viven completamente en la cadena, interactúan continuamente con los usuarios y no requieren dependencias de API centralizadas. Ahí es cuando DeAI deja de ser un proyecto de investigación y comienza a ser infraestructura. Mira 0G.