Skip to content

GLM-5 来了:智谱新旗舰,剑指 Agentic Engineering

从"写代码"到"写工程",大模型正式进入 Agent 时代。


一、GLM-5 是什么?

GLM-5 是智谱AI新一代的旗舰基座模型,面向 Agentic Engineering 打造,能够在复杂系统工程与长程 Agent 任务中提供可靠生产力。

在 Coding 与 Agent 能力上,GLM-5 取得开源 SOTA 表现,在真实编程场景的使用体感逼近 Claude Opus 4.5,擅长复杂系统工程与长程 Agent 任务,是通用 Agent 助手的理想基座。

核心参数一览

项目规格
定位旗舰基座模型
输入/输出模态文本 → 文本
参数规模744B(激活 40B)
预训练数据28.5T
上下文窗口200K tokens
最大输出128K tokens

二、更大基座,更强智能

GLM-5 全新基座为从"写代码"到"写工程"的能力演进提供了坚实基础:

1. 参数规模大幅扩展

从 GLM-4 系列的 355B(激活 32B) 扩展至 744B(激活 40B),预训练数据从 23T 提升至 28.5T。更大规模的预训练算力,显著提升了模型的通用智能水平。

2. 异步强化学习

构建全新的 "Slime" 框架,支持更大模型规模及更复杂的强化学习任务。提出异步智能体强化学习算法,使模型能够持续从长程交互中学习,充分激发预训练模型的潜力。

3. 稀疏注意力机制

首次集成 DeepSeek Sparse Attention,在维持长文本效果无损的同时,大幅降低模型部署成本,提升 Token Efficiency。


三、Coding 能力:对齐 Claude Opus 4.5

这或许是 GLM-5 最令人兴奋的部分。

GLM-5 在编程能力上实现了对 Claude Opus 4.5 的对齐,在业内公认的主流基准测试中取得开源模型最高分数

  • SWE-bench-Verified:77.8(开源最高,超越 Gemini 3.0 Pro)
  • Terminal Bench 2.0:56.2(开源最高,超越 Gemini 3.0 Pro)

GLM-5 Coding 基准测试成绩

在智谱内部的 Claude Code 评估集合中,GLM-5 在前端、后端、长程任务等编程开发任务上显著超越 GLM-4.7,能够以极少的人工干预自主完成 Agentic 长程规划与执行、后端重构和深度调试等系统工程任务,使用体验逼近 Opus 4.5。

GLM-5 内部 Claude Code 评估对比

一句话总结:GLM-5 不只是能写代码,而是能写工程。


四、Agent 能力:SOTA 级长程任务执行

GLM-5 在 Agent 能力上实现开源 SOTA,在多个评测基准中取得开源第一

评测基准能力维度表现
BrowseComp联网检索与信息理解开源最高
MCP-Atlas工具调用和多步骤任务执行开源最高
τ²-Bench复杂多工具场景下的规划和执行开源最高

GLM-5 Agent 能力评测

这些能力是 Agentic Engineering 的核心——模型不仅要能写代码、完成工程,还要能在长程任务中保持目标一致性、进行资源管理、处理多步骤依赖关系,成为真正的 Agentic Ready 基座模型。


五、全面的能力矩阵

GLM-5 支持一系列丰富的模型能力:

能力说明
思考模式提供多种思考模式,覆盖不同复杂度任务
流式输出支持实时流式响应,提升交互体验
Function Call强大的外部工具调用能力
MCP灵活调用外部 MCP 工具与数据源
上下文缓存智能缓存机制,优化长对话性能
结构化输出支持 JSON 等格式,便于系统集成
GLM in Excel适配 Excel 官方 AI 插件,赋能表格工作流

六、推荐使用场景

Agentic Coding — 自然语言到可运行代码,覆盖前后端与数据处理,显著缩短从需求到产物的迭代周期。

智能体任务 — 从理解、规划到执行与自检的全流程智能体任务,实现"一句话输入到完整交付物"。

办公场景 — 跨阶段、多步骤、强逻辑关联的复杂办公任务,确保指令遵循度与目标一致性。

角色扮演 — 精准理解并持续保持角色设定,自然、可演进的高沉浸式角色扮演体验。

剧本/分镜脚本生成 — 长文本一致性与复杂人物塑造大幅增强,可直接进入制作流程。

翻译 — 语义、术语与表达的全面对齐,正式文本准确转换为符合目标语言表达习惯的专业译文。

文本数据提取 — 从合同、公告、财报等复杂文本中精准抽取关键字段与逻辑关系。

信息质检 — 精准识别客服工单等复杂文本中的关键信息,自动完成质检与风险识别。


七、与 GLM-4 系列的关键对比

指标GLM-4 系列GLM-5
参数规模355B(激活 32B)744B(激活 40B)
预训练数据23T28.5T
上下文窗口200K
最大输出128K
SWE-bench-Verified77.8(开源最高)
Terminal Bench 2.056.2(开源最高)
强化学习框架Slime 异步 RL
稀疏注意力DeepSeek Sparse Attention

写在最后

GLM-5 的发布,标志着国产大模型在 CodingAgent 两大核心能力上迈入了新的阶段。

从参数规模的扩展到训练方法的创新,从编程能力对齐 Claude Opus 4.5 到 Agent 能力全面开源 SOTA,智谱正在用实力证明:开源生态同样能跑出世界级的 Agentic 基座模型。

对于开发者而言,GLM-5 的到来意味着更强大的 AI 编程伙伴和更可靠的智能体基座。无论你是在构建 AI 应用、搭建自动化工作流,还是探索 Agentic Engineering 的前沿,GLM-5 都值得一试。


相关链接:

数据来源:智谱AI开放文档,图片来自官方公开资料。