发布时间:2025-12-30
信息来源:创新创业中关村微信公众号
字体:
大
中
小
打印
发布时间:2025-12-30
信息来源:创新创业中关村微信公众号
12月28日,智谱AI发布的GLM-4.7在全球评测机构Artificial Analysis发布的“Intelligence Index”榜单中,以68分的综合成绩位列全球第六,同时在开源模型与国产模型分类中均排名第一。该成绩超越了Claude 4.5 Sonnet、Grok 4及DeepSeek V3.2等国际知名模型,标志着国产大模型在国际评测中取得突破。

GLM-4.7是一款Reasoning(推理)的大模型,其核心优势在本次评测中得到了验证。在难度较高的GPQA Diamond中,GLM-4.7获得84%的高分,与闭源模型Gemini 3 Pro表现相当。然而,评测报告也指出该模型能力存在不均衡之处,在代码生成与数学竞赛相关任务中仍有提升空间。例如,在LiveCodeBench(代码能力测试)中,其得分率为39%,低于国产同类模型DeepSeek V3.2的51%。报告同时关注到GLM-4.7一项显著的技术经济特征:为追求更高的推理质量,模型倾向于生成详尽的思维链,这一策略在提升答案可靠性的同时,也相应增加了推理成本。

GLM-4.7此次的表现,不仅代表单一模型的成功,更折射出中国大模型产业整体竞争力的提升。榜单显示,中国模型已形成具有国际竞争力的梯队:除GLM-4.7外,Kimi K2 Thinking与DeepSeek V3.2均获67分,以一分之差紧随其后。这一集体表现表明,中国大模型产业已从追赶阶段,进入与国际先进水平同台竞技的新时期。
Artificial Analysis是国际公认的大模型评测机构之一,其发布的“Intelligence Index”综合了MMLU-Pro、GPQA Diamond、Humanity's Last Exam (HLE)等多个高难度测试集,全面评估模型在知识、推理、代码及智能体等方面的能力,被业界视为衡量模型综合性能的重要参考。
相关人物