

机器之心发布
Mythos 被禁了。

Anthropic 阿谁让硅谷集体千里默的模子,好意思国政府不让卖给中国。X 平台上有东谈主径直问马斯克:中国什么时刻能追上?Musk 说九个月。智谱首席科学家唐杰回了一句:用不了那么久。

GLM-5.2 刚发布,评测全面面临前沿,基座差距在肉眼可眼光收窄。唐杰的底气能够率来自于此。但咱们更热心另一个问题:追上 Mythos,光靠基座迭代够不够?
不够。OpenAI 从 GPT-4 到 o1,中枢增量来其后测验。Anthropic 的 Constitutional AI,履行是后测验门径论。基座决定上限,后测验决定你能摸到上限的若干。事实上,GLM 从 5.1 到 5.2 的才智越过,自己即是后测验的到手。
而这刚巧引出一个要津事实:刚巧两周前,机器之心报谈了一家挑升作念大模子后测验的团队:Mind Lab,附庸于 Mindverse(心洲科技)。从 HuggingFace 的数据来看,他们咫尺是大师唯独一家完成了 GLM-5.1/5.2 系列后测验的外部团队。 他们基于 GLM-5.1 后测验的模子 Macaron-V1-Preview,评测死心仍是超越了基座自己,提分幅度不小。
这意味着什么?要是 GLM 基座才智不绝往上走,Mind Lab 在后测验上已训诫证过的提分才智再类似上去,通事后测验蹊径追平 Mythos 级别的智能,Mind Lab 相通有契机。
但此次看到唐杰那条回帖,咱们重新去看了一眼 GLM 的后测验生态。发现的事情挺情愿东谈主心的。
去 HuggingFace 上翻了一圈
从 HuggingFace 上看来,Mind Lab 咫尺仍然是大师唯独一家,完成了 GLM-5.1/5.2 系列模子后测验的实验室。 GLM-5.1 的 finetune 和 adapter 分类下,翻来翻去即是他们一家作念罢了全经过并公配置布。

一个有真谛的细节:HuggingFace 上 GLM-5.1 后测验模子下载量排第四的,其实是另一个团队(inferencerlabs)对 Macaron 作念量化后不错径直驱动在 Mac 上版块。别东谈主的模子仍是在被二次加工和传播了,生态影响力在自愿酿成。

GLM-5.2 发布之后咱们又去看了,Mind Lab 相通是第一个书记援助并启动后测验的。值得一提的是,GLM-5.2 引入了一个全新的架构狡计 IndexCache,这是该版块差别于 5.1 的中枢手艺变化之一。Mind Lab 仍是完成了对 IndexCache 的完好适配,并将决策径直开源了出来。新基座刚发布,中枢新架构的测验援助就仍是到位并开源,这个反应速率自己就发挥问题。更早之前,他们在手艺博客里就表示了对 DSA(动态稀少瞩见识)和 MTP(多 token 展望)这些 700B 以上模子独到架构模块的适配决策。
从架构适配到测验框架再到开源发布,每次 GLM 出新版,Mind Lab 跟进的速率王人是按天算的,这不是临时急时江心补漏能作念到的事。

后测验提了若干分
上一轮的得益单仍是摆在那边了。
先前基于 GLM-5.1 的后测验,Mind Lab 的提分幅度十分可不雅:PinchBench 从 GLM-5.1 基座的 76.6 分升迁到 Macaron-V1-Preview 的 92.5 分,涨了 15.9 分,相对升迁约 20.8%;Terminal-Bench 2.0 从 63.5 分升迁到 67.4 分,涨了 3.9 分。这个幅度发挥一件事:GLM 系列的基座才智远莫得被充分开释,后测验还有很大的提分空间。

当今他们搬到了 GLM-5.2 上。5.2 比 5.1 基座才智有显耀跃升,亚搏app2026世界杯中国官方下载后测验能开释的空间也随着变大。
GLM5.1 到 5.2 的越过,履行上即是后测验的到手。而 Mind Lab 是咫尺唯独具备 GLM5.1/5.2 后测验才智的外部团队,而且是咫尺唯独具备 GLM5 系列后测验才智的外部团队。智谱的基座才智还在捏续往上走,年底能够率会发布新一代模子。到阿谁时刻,基座自己的才智跨了一大步,Mind Lab 在后测验上蕴蓄的提分才智再类似上去,逻辑链条是畅达的,Mind Lab 相通有契机追平 Mythos 同等水平的智能。
而且有极少容易被冷漠:作念后测验的团队,迭代周期自然比作念基座的短。基座测验动辄几个月,后测验的周期是按周算的。新基座一出来,后测验团队表面上不错比基座团队我方更快地把才智开释出来。在「从智谱新基座到 Mythos 级别居品」这段路上,Mind Lab 的节拍可能比你思象的快,因为他们只押这一件事。
2026年世界杯中国官网除了智谱我方,只好他们
既然后测验价值这样大,为什么作念的东谈主这样少?
门槛不低。三个才智统筹兼顾:
对基座架构的深度结实。GLM 使用的 MTP 和 DSA 王人是在 700B 以上模子才用到的手艺,indexcache 更是援助 GLM5.2 测验到 1M 高下文的要津手艺,不是拿开源测验框架径直跑得通的。
高质料测验数据的构造才智。后测验和预测验用的数据扫数不同,不是领域取胜,而是质料和结构取胜。这部分的 know-how 在行业里高度不透明。
工程基础门径。大模子后测验相通吃算力,相通需要缜密到每个超参数的测验政策处置。就在最近,Mind Lab 径直开源了一套援助 GLM-5.1 和 5.2 的 Megatron 测验框架。 这意味着他们不仅仅在现存框架上作念适配,而是从测验基础门径层面把 GLM 系列的后测验链路买通了,而这个工程量自己即是全部很高的门槛。
GLM-5.1 发布到当今不短了,HuggingFace 上作念完后测验并开源的只好一家。除了智谱我方之外,Mind Lab 是咫尺唯独展现出有才智在 GLM 最新基座上作念后测验的外部团队。 这个位置自己即是稀缺的。

九个月够不够
Mythos 被禁,中国思用上同等才智只可靠自研。马斯克说九个月。唐杰说用不了那么久。
唐竭诚示意,作念出中国的 Mythos,需要两条腿步辇儿,即基座预测验迭代和后测验模子的自我迭代。智谱在前者的位置很明确,尔后者的位置上,Mind Lab 是咫尺除智谱之外唯独交出公开死心、况兼捏续在 GLM 最新基座上迭代的团队。
后测验赛谈在国内还莫得获取迷漫关注。大部分接洽蚁集在基座之争:谁的参数多、谁的评测高、谁又发了新版块。但当基座差距缓缓收窄,后测验的质料会越来越成为居品体验的分水岭。
九个月够不够,咱们不细则。但有一件事是细则的:在 GLM5.1/5.2 的后测验蹊径上,咫尺唯独看获取旅途、况兼仍是用得益解说过提分才智的外部团队,即是 Mind Lab。Mythos 级的智能不是只好预测验一条路能到,后测验这条路上,Mind Lab 仍是站在了最近的位置。
这件事亚搏app2026世界杯中国官方下载,情愿东谈主心。

备案号: