AI模型压缩首次使链上推理在经济上可行。 运行一个70亿参数的模型,考虑到燃气费和计算开销,推理调用的成本曾经高达每次2-3美元。这样的定价使得任何面向消费者的AI应用都注定失败。你无法构建一个每条消息收费2美元的聊天机器人。经济学根本行不通。 量化和剪枝技术将模型压缩到10亿到20亿参数,而不会损失太多准确性。突然间,推理成本降至每次0.10-0.20美元。虽然仍然不是免费的,但现在你进入了微支付模型可行的范围。用户可以为每次交互支付几分之一美分,开发者可以在没有风险投资补贴的情况下覆盖成本,单位经济学实际上也能成立。 当推理成本足够低以支持真正的应用,而不仅仅是演示时,你将解锁一个完全不同的设计空间。完全在链上生活的AI代理,持续与用户互动,并且不需要集中式API依赖。那时,DeAI不再是一个研究项目,而是开始成为基础设施。 观看0G。