中文大模型基准测评2025年年度报告

关于报告的所有内容,公众号『行业报告智库』阅读原文或点击菜单获取报告下载查看。

当Claude-Opus-4.5-Reasoning以68.25分坐上全球头把交椅时,中国模型的座次正在发生微妙位移。不是逆袭,不是碾压,而是一种更复杂的局面:海外闭源模型仍在山顶,但中国开源军团已经围住了半山腰。

数据显示,2025年1月的测评窗口期,Kimi-K2.5-Thinking以61.50分位列全球第四,这是开源模型首次闯入第一梯队。第一名与第四名之间隔着6.75分,但第四名到第十名的拥挤地带,分差不过5分。简单来说,头部阵营的护城河正在变浅。

开源与闭源的攻守易位特别刺眼。海外开源代表gpt-oss-120b仅得48.45分,被Kimi-K2.5-Thinking甩开近13分。Llama-4-Maverick-17B-128E-Instruct更是跌至29.57分,不及国产开源模型GLM-4.7的一半。

数学推理是硬仗。Qwen3-Max-Thinking拿到80.87分,与Gemini-3-Pro-Preview并列全球第一,然后是Kimi-K2.5-Thinking。这是国产模型首次在硬核理科任务上与海外顶尖产品并驾齐驱。科学推理稍逊,DeepSeek-V3.2-Thinking以71.31分挤进前五,但前四席仍被GPT-5.2、Gemini系列和Claude包揽。

真正的裂缝出现在代码生成。Kimi-K2.5-Thinking以53.33分登顶全球,不仅压过Grok-4的49.51分,更把Claude-Opus-4.5-Reasoning甩在身后。Web Coding子任务上,国产模型的优势更为明显:Kimi-K2.5-Thinking的46.06分比GPT-5.2(high)的23.89分高出近一倍。这意味着什么?中国模型在工程落地场景,尤其是前端开发、网页构建这类”脏活累活”上,已经形成了代际优势。

智能体任务规划是另一块高地。Qwen3-Max-Thinking以70.13分拿下国内第一,仅次于GPT-5.2(high)的81.39分和Claude-Opus-4.5-Reasoning的74.87分。考虑到智能体被视为大模型商业化的终极形态,这个座次意义重大。

精确指令遵循任务上,海外模型平均分27.02分,国内仅19.96分,差距超过7分。Claude-Opus-4.5-Reasoning以51.10分一骑绝尘,而国内最好的ERNIE-5.0只有37.81分。幻觉控制同样胶着:GPT-5.2(high)的88.56分和Claude-Opus-4.5-Reasoning的88.31分形成双寡头,国内最好的GLM-4.7为83.85分,看似差距不大,但细看子任务,文本摘要国内平均93.20分反超海外,阅读理解、多文本问答、对话补全却全线落后。

这种”偏科”现象在模型象限图中更为直观。Kimi-K2.5-Thinking和Qwen3-Max-Thinking卡在”技术领跑者”与”卓越领导者”的交界线上,推理能力逼近海外第一梯队,应用能力却差了一口气。ERNIE-5.0、Doubao-Seed-1.8-251228(Thinking)们则挤在”实用主义者”象限,场景落地强,技术深度不足。

Kimi-K2.5-Thinking的API价格低于10元/百万Tokens,性能却逼近30元区间的海外模型。DeepSeek-V3.2-Thinking、GLM-4.7们同样盘踞高性价比区。反观Claude-Opus-4.5-Reasoning、GPT-5.2(high)们,性能顶尖,价格同样顶尖,落在”低性价比区”的右上角。这不是技术问题,是商业模式的选择:海外模型卖的是溢价,中国模型打的是规模。

推理效能的对比更有意思。海外模型在”高性能+高效率”象限扎堆,Claude-Opus-4.5-Reasoning、Gemini-3-Pro-Preview、Gemini-3-Flash-Preview形成铁三角。国内模型中,只有Kimi-K2.5-Thinking勉强挤入高效能区边缘,多数国产模型还在”中效能区”徘徊。但Kimi的迭代轨迹值得玩味:从Kimi-K2-Thinking的701.09秒/题,到Kimi-K2.5-Thinking的224秒/题,推理速度提升三倍,分数反而涨了14%。中国工程师优化工程化能力的能力,正在转化为实实在在的产品力。

年度测评的23个模型名单本身就是一部浓缩史。2025年3月,DeepSeek-R1首次亮相即夺国内第一;5月,Doubao-1.5-thinking-pro接棒;7月,DeepSeek-V3.1-Thinking短暂登顶;9月,Kimi-K2-Thinking与DeepSeek-V3.2-Exp-Thinking并列;11月,DeepSeek-V3.2-Special再下一城;2026年1月,Kimi-K2.5-Thinking与Qwen3-Max-Thinking终于并肩站在山巅。六个月,六易其主,这种迭代密度在海外不可想象。

但榜单的流动性也暴露了隐忧。中国模型在”快”上做到极致,却在”稳”上仍有欠缺。Qwen3-Max-Thinking的Preview版本与正式版本在精确指令遵循任务上相差14分,Kimi-K2.5-Thinking的幻觉控制比Kimi-K2-Thinking提升9分却仍有10分差距待补。这种版本间的剧烈波动,说明底层能力的沉淀还不够厚重。

海外模型则呈现出另一种气质。GPT-5.2(high)从2025年3月到2026年1月,始终稳居海外前三;Claude-Opus-4.5-Reasoning一旦登顶便未曾跌落;Gemini-3-Pro-Preview和Gemini-3-Flash-Preview形成稳定的双子星。这种稳定性,某种程度上比分数本身更可怕。

简单总结下,中国大模型已经完成了从”可用”到”好用”的跨越,正在叩击”卓越”的门扉。但门内与门外,仍是两个世界。海外模型掌握着精确性、稳定性和高端闭源市场的定价权;中国模型则凭借开源生态、工程优化和极致性价比,在应用层撕开缺口。这不是一场零和博弈,而是两条路径的分化。当Kimi-K2.5-Thinking在代码生成任务上超越GPT-5.2(high)时,它证明了中国模型可以赢得局部战争;但当Claude-Opus-4.5-Reasoning在精确指令遵循上以51.10分碾压全场时,它也提醒着:通用人工智能的皇冠,仍有多颗宝石尚未摘下。

社交账号快速登录