中文大模型基准测评2025年年度报告

关于报告的所有内容，公众号『行业报告智库』阅读原文或点击菜单获取报告下载查看。

当Claude-Opus-4.5-Reasoning以68.25分坐上全球头把交椅时，中国模型的座次正在发生微妙位移。不是逆袭，不是碾压，而是一种更复杂的局面：海外闭源模型仍在山顶，但中国开源军团已经围住了半山腰。

数据显示，2025年1月的测评窗口期，Kimi-K2.5-Thinking以61.50分位列全球第四，这是开源模型首次闯入第一梯队。第一名与第四名之间隔着6.75分，但第四名到第十名的拥挤地带，分差不过5分。简单来说，头部阵营的护城河正在变浅。

开源与闭源的攻守易位特别刺眼。海外开源代表gpt-oss-120b仅得48.45分，被Kimi-K2.5-Thinking甩开近13分。Llama-4-Maverick-17B-128E-Instruct更是跌至29.57分，不及国产开源模型GLM-4.7的一半。

数学推理是硬仗。Qwen3-Max-Thinking拿到80.87分，与Gemini-3-Pro-Preview并列全球第一，然后是Kimi-K2.5-Thinking。这是国产模型首次在硬核理科任务上与海外顶尖产品并驾齐驱。科学推理稍逊，DeepSeek-V3.2-Thinking以71.31分挤进前五，但前四席仍被GPT-5.2、Gemini系列和Claude包揽。

真正的裂缝出现在代码生成。Kimi-K2.5-Thinking以53.33分登顶全球，不仅压过Grok-4的49.51分，更把Claude-Opus-4.5-Reasoning甩在身后。Web Coding子任务上，国产模型的优势更为明显：Kimi-K2.5-Thinking的46.06分比GPT-5.2(high)的23.89分高出近一倍。这意味着什么？中国模型在工程落地场景，尤其是前端开发、网页构建这类”脏活累活”上，已经形成了代际优势。

智能体任务规划是另一块高地。Qwen3-Max-Thinking以70.13分拿下国内第一，仅次于GPT-5.2(high)的81.39分和Claude-Opus-4.5-Reasoning的74.87分。考虑到智能体被视为大模型商业化的终极形态，这个座次意义重大。

精确指令遵循任务上，海外模型平均分27.02分，国内仅19.96分，差距超过7分。Claude-Opus-4.5-Reasoning以51.10分一骑绝尘，而国内最好的ERNIE-5.0只有37.81分。幻觉控制同样胶着：GPT-5.2(high)的88.56分和Claude-Opus-4.5-Reasoning的88.31分形成双寡头，国内最好的GLM-4.7为83.85分，看似差距不大，但细看子任务，文本摘要国内平均93.20分反超海外，阅读理解、多文本问答、对话补全却全线落后。

这种”偏科”现象在模型象限图中更为直观。Kimi-K2.5-Thinking和Qwen3-Max-Thinking卡在”技术领跑者”与”卓越领导者”的交界线上，推理能力逼近海外第一梯队，应用能力却差了一口气。ERNIE-5.0、Doubao-Seed-1.8-251228(Thinking)们则挤在”实用主义者”象限，场景落地强，技术深度不足。

Kimi-K2.5-Thinking的API价格低于10元/百万Tokens，性能却逼近30元区间的海外模型。DeepSeek-V3.2-Thinking、GLM-4.7们同样盘踞高性价比区。反观Claude-Opus-4.5-Reasoning、GPT-5.2(high)们，性能顶尖，价格同样顶尖，落在”低性价比区”的右上角。这不是技术问题，是商业模式的选择：海外模型卖的是溢价，中国模型打的是规模。

推理效能的对比更有意思。海外模型在”高性能+高效率”象限扎堆，Claude-Opus-4.5-Reasoning、Gemini-3-Pro-Preview、Gemini-3-Flash-Preview形成铁三角。国内模型中，只有Kimi-K2.5-Thinking勉强挤入高效能区边缘，多数国产模型还在”中效能区”徘徊。但Kimi的迭代轨迹值得玩味：从Kimi-K2-Thinking的701.09秒/题，到Kimi-K2.5-Thinking的224秒/题，推理速度提升三倍，分数反而涨了14%。中国工程师优化工程化能力的能力，正在转化为实实在在的产品力。

年度测评的23个模型名单本身就是一部浓缩史。2025年3月，DeepSeek-R1首次亮相即夺国内第一；5月，Doubao-1.5-thinking-pro接棒；7月，DeepSeek-V3.1-Thinking短暂登顶；9月，Kimi-K2-Thinking与DeepSeek-V3.2-Exp-Thinking并列；11月，DeepSeek-V3.2-Special再下一城；2026年1月，Kimi-K2.5-Thinking与Qwen3-Max-Thinking终于并肩站在山巅。六个月，六易其主，这种迭代密度在海外不可想象。

但榜单的流动性也暴露了隐忧。中国模型在”快”上做到极致，却在”稳”上仍有欠缺。Qwen3-Max-Thinking的Preview版本与正式版本在精确指令遵循任务上相差14分，Kimi-K2.5-Thinking的幻觉控制比Kimi-K2-Thinking提升9分却仍有10分差距待补。这种版本间的剧烈波动，说明底层能力的沉淀还不够厚重。

海外模型则呈现出另一种气质。GPT-5.2(high)从2025年3月到2026年1月，始终稳居海外前三；Claude-Opus-4.5-Reasoning一旦登顶便未曾跌落；Gemini-3-Pro-Preview和Gemini-3-Flash-Preview形成稳定的双子星。这种稳定性，某种程度上比分数本身更可怕。

简单总结下，中国大模型已经完成了从”可用”到”好用”的跨越，正在叩击”卓越”的门扉。但门内与门外，仍是两个世界。海外模型掌握着精确性、稳定性和高端闭源市场的定价权；中国模型则凭借开源生态、工程优化和极致性价比，在应用层撕开缺口。这不是一场零和博弈，而是两条路径的分化。当Kimi-K2.5-Thinking在代码生成任务上超越GPT-5.2(high)时，它证明了中国模型可以赢得局部战争；但当Claude-Opus-4.5-Reasoning在精确指令遵循上以51.10分碾压全场时，它也提醒着：通用人工智能的皇冠，仍有多颗宝石尚未摘下。

猜你喜欢

2025年播客消费者报告

2026年1月快手直播电商月报

2026年移动市场报告

2026“拉布布”启示：中国品牌出海颠覆式增长白皮书

2026年AI与数据发展预测报告

2026存储芯片市场需求、竞争格局及国产厂商布局情况分析报告

社交账号快速登录