热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Ahmad
人工智能研究员和软件工程师,肩负构建 DGX B200 GPU 集群的使命
主要的 KV-缓存内存修复
修复 GLM-4.7-Flash 的 KV-cache
只需在 vLLM 中进行这一行更改
200K 上下文现在只需 ~10GB 的 VRAM
而不是 ~180GB
NVFP4 现在在 HF*
- ~20.4GB 权重
- 与 62.4GB BF16 几乎没有损失
这个 SOTA 模型现在可以在
一台 RTX 5090(32GB VRAM)上运行
> 完整的 200K 上下文
> 仍然有剩余的 VRAM
*HF: GadflyII/GLM-4.7-Flash-NVFP4


Ahmad1月20日 04:26
巨大的
本地 LLM 的年份正式开始
由 Zhipu AI 发布的 GLM-4.7-Flash
> 30B-A3B MoE
> 为消费级 GPU 构建
> 可在你的地下室运行
> 我们见过的最强 30B 级发布
这是我在本地运行过的最佳 <=70B
架构
> DeepSeek 风格的 MLA 注意力
> 精简的 MoE 路由
> 总参数 30B,约 4B 活跃
> 总共 64 个专家,5 个活跃(包括共享)
深度与意图
> 大致为 GLM-4.5-Air 级别
> 但针对本地性进行了更严格的调优
基准测试
SWE-bench 验证
> GLM-4.7-Flash: 59.2
> Qwen3-30B-A3B: 22.0
> GPT-OSS-20B: 34.0
> Nemotron-3-Nano-30B-A3B: 38.8
> 不是同一个宇宙
τ²-Bench
> GLM-4.7-Flash: 79.5
> Qwen3-30B-A3B: 49.0
> GPT-OSS-20B: 47.7
> 代理 + 工具使用通过
BrowseComp:
> GLM-4.7-Flash: 42.8
> Qwen3-30B-A3B: 2.3
> GPT-OSS-20B: 28.3
> 是的,Qwen 30B-A3B 只有 2.3
> 网络推理仍然会破坏模型
AIME 25
> GLM-4.7-Flash: 91.6
> Qwen3-30B-A3B: 85.0
> GPT-OSS-20B: 91.7
> 约 4B 活跃参数
GPQA
> GLM-4.7-Flash: 75.2
> Qwen3-30B-A3B: 73.4
> GPT-OSS-20B: 71.5
> 安静而稳定的领先
HLE
> GLM-4.7-Flash: 14.4
> Qwen3-30B-A3B: 9.8
> GPT-OSS-20B: 10.9
> 对每个人来说仍然很残酷
> GLM 只是伤得少一些
上下文窗口现实检查
> FP16 权重适合于
> ~27k tokens 在 RTX PRO 6000 上
> 或 4x RTX 3090s(96GB VRAM)
> 4-bit AWQ 权重适合于
> ~70k token 上下文在 RTX PRO 6000 上
> 或 4x RTX 3090s(96GB VRAM)
> 提醒:KV 缓存,而不是权重,才是真正的负担
> 为什么?
> 厚 KV 头
> 每个 token ~3x VRAM 对比 GPT-OSS-120B
> 尽管两者的权重都在 ~60GB 左右
本地痛点
> vLLM / SGLang:在主线上,仍然有点不成熟
> 新架构 + 内核 = 粗糙的边缘
> KV 缓存可能会迅速咬人,如上所示
> 取决于 dtype + 内核路径
接下来真正重要的是什么
> 在更多 GPU 上稳定的 MLA 内核
> FP8 / 量化下降 + 干净的 GGUFs
> 真实的“日常驱动”报告
> SWE 59.2 在真实仓库中真的感觉像 59.2 吗?
如果你在 RTX 5090s/4090s/3090s 或
PRO 6000/PRO 5000/PRO 4500/PRO 4000 堆栈上
> 这是你的领域
> 30B-A3B 级,本地,真实的工具使用分数
> 内核成熟,这将成为默认安装
> 现在我们等待来自本地社区的量化、内核和报告
> 买一块 GPU
> 本地运行你的 LLMs

120
热门
排行
收藏

