Die Kompression von KI-Modellen hat die Onchain-Inferenz zum ersten Mal wirtschaftlich rentabel gemacht. Das Ausführen eines Modells mit 7 Milliarden Parametern kostete früher 2-3 $ pro Inferenzaufruf, wenn man die Gasgebühren und die Rechenkosten berücksichtigt. Diese Preisgestaltung macht jede verbraucherorientierte KI-Anwendung von Anfang an zum Scheitern verurteilt. Man kann keinen Chatbot bauen, der die Nutzer 2 $ pro Nachricht kostet. Die Wirtschaftlichkeit hat nie funktioniert. Quantisierungs- und Pruning-Techniken komprimieren Modelle auf 1-2 Milliarden Parameter, ohne viel Genauigkeit zu verlieren. Plötzlich sinken die Inferenzkosten auf 0,10-0,20 $ pro Aufruf. Immer noch nicht kostenlos, aber jetzt befindet man sich in einem Bereich, in dem Mikropayment-Modelle rentabel werden. Nutzer können Bruchteile eines Cents pro Interaktion zahlen, Entwickler können die Kosten ohne VC-Subventionen decken, und die Einheitlichkeit der Wirtschaftlichkeit stimmt tatsächlich. Wenn die Inferenz günstig genug wird, um echte Anwendungen zu unterstützen, nicht nur Demos, eröffnet man einen völlig anderen Designraum. KI-Agenten, die vollständig Onchain leben, kontinuierlich mit Nutzern interagieren und keine zentralisierten API-Abhängigkeiten benötigen. Dann hört DeAI auf, ein Forschungsprojekt zu sein, und wird zur Infrastruktur. Sieh dir 0G an.