中文大模型基准测评2025年上半年报告

关于报告的所有内容,公众号『行业报告智库』阅读原文或点击菜单获取报告下载查看。

2025年上半年,国内外大模型在中文领域的竞争异常激烈。数据显示,海外头部模型如OpenAI的o3、o4-mini(high)和Gemini-2.5-Pro在本次测评中表现突出,占据了榜单的前三名。这些模型在推理任务上展现出了强大的能力,领跑推理任务榜单。

尽管海外模型在整体上占据优势,但国内模型的进步同样不小。字节跳动的Doubao-Seed-1.6-thinking-250715位列国内第一、全球第四。DeepSeek-R1-0528、Qwen3-235B-A22B-Thinking-2507和GLM-4.5分别取得了开源榜单的前三名。国内开源模型在技术创新和应用落地方面已经取得了重要突破,不仅在性能上不输海外模型,还在某些领域展现出了独特的竞争力。

在智能体Agent任务上,国内模型的表现比较突出。Doubao-Seed-1.6-thinking-250715领跑全球,GLM-4.5和SenseNova V6Reasoner并列国内第二。国内模型在理解和执行中文场景下的复杂任务方面已经达到了领先水平,能够更好地适应中文用户的实际需求。在幻觉控制任务上,国内模型也展现出了强大的能力。Doubao-Seed-1.6-thinking-250715、ERNIE-X1-Turbo-32K-Preview和Hunyuan-T1-20250711分别位于国内前三,国内模型在生成准确、可靠的信息方面已经取得了重要进展,能够有效减少幻觉现象的发生,为用户提供更加可信的交互体验。

除了大型模型的较量,小模型的发展同样值得关注。Qwen3系列的开源小参数量模型在本次测评中表现亮眼,其中8B、4B和1.7B版本分别在10B级别和端侧5B级别的榜单中领先。小模型在性能和效率之间找到了良好的平衡,在资源有限的设备上展现出强大的应用潜力。从性价比角度来看,国内头部模型如Hunyuan-T1-20250711、GLM-4.5和Doubao-Seed-1.6-thinking-250715等展现出强劲的性价比优势,其得分与价格的综合表现优于海外模型,为用户提供了更具经济性的选择。

社交账号快速登录