您现在的位置：首页 > 科技动态 > 新闻聚焦

国产大模型取得突破：GLM-4.7成绩超越国际知名模型

发布时间：2025-12-30

信息来源：创新创业中关村微信公众号字体：大中小

打印

发布时间：2025-12-30

信息来源：创新创业中关村微信公众号

12月28日，智谱AI发布的GLM-4.7在全球评测机构Artificial Analysis发布的“Intelligence Index”榜单中，以68分的综合成绩位列全球第六，同时在开源模型与国产模型分类中均排名第一。该成绩超越了Claude 4.5 Sonnet、Grok 4及DeepSeek V3.2等国际知名模型，标志着国产大模型在国际评测中取得突破。

GLM-4.7是一款Reasoning（推理）的大模型，其核心优势在本次评测中得到了验证。在难度较高的GPQA Diamond中，GLM-4.7获得84%的高分，与闭源模型Gemini 3 Pro表现相当。然而，评测报告也指出该模型能力存在不均衡之处，在代码生成与数学竞赛相关任务中仍有提升空间。例如，在LiveCodeBench（代码能力测试）中，其得分率为39%，低于国产同类模型DeepSeek V3.2的51%。报告同时关注到GLM-4.7一项显著的技术经济特征：为追求更高的推理质量，模型倾向于生成详尽的思维链，这一策略在提升答案可靠性的同时，也相应增加了推理成本。

GLM-4.7此次的表现，不仅代表单一模型的成功，更折射出中国大模型产业整体竞争力的提升。榜单显示，中国模型已形成具有国际竞争力的梯队：除GLM-4.7外，Kimi K2 Thinking与DeepSeek V3.2均获67分，以一分之差紧随其后。这一集体表现表明，中国大模型产业已从追赶阶段，进入与国际先进水平同台竞技的新时期。

Artificial Analysis是国际公认的大模型评测机构之一，其发布的“Intelligence Index”综合了MMLU-Pro、GPQA Diamond、Humanity's Last Exam (HLE)等多个高难度测试集，全面评估模型在知识、推理、代码及智能体等方面的能力，被业界视为衡量模型综合性能的重要参考。