关于报告的所有内容,公众号『行业报告智库』阅读原文或点击菜单获取报告下载查看。
2025 年的全球人工智能行业,没有出现外界一度猜测的发展放缓,反而在一整年的时间里,把行业竞争推向了前所未有的白热化阶段。年初还不存在的代码智能体,到年底已经彻底改变了软件工程的行业形态,从开发者复制粘贴代码到对话窗口,变成了直接下达指令,让智能体自主完成数分钟的连续工作。这一年里,AI 赛道没有出现头部格局的固化,玩家数量持续增加,不同层级的智能成本都在持续下降,强化学习的规模化应用,稀疏混合专家架构的普及,全新硬件的落地,共同推着整个行业往前跑。
2025 年,推理模型彻底从少数厂商的独家优势,变成了行业标配。年初只有 OpenAI 的 o1 一款推理模型,到年底,所有主流 AI 实验室都推出了自己的推理模型,这些模型也占据了全球智能榜单的头部位置。OpenAI 在 2025 年的开头和结尾,都守住了全球最强语言模型的位置,但它的领先优势已经缩到了历史最窄的水平。在智能指数榜单上,GPT-5.2 (xhigh) 站在 55 分的位置,身后谷歌 Gemini 3 Pro Preview、xAI 的 Grok 4、Anthropic 的 Claude 4.5 Opus,还有中国的 DeepSeek V3.2,形成了密集的追赶梯队。
智能的成本在 2025 年出现了两极分化的变化。一方面,GPT-4 同级别的智能,成本已经降到了初代 GPT-4 的百分之一。o1 级别的智能,单 token 价格在全年里下降了 128 倍,更小的模型通过算法和训练数据的优化,实现了更高的智能水平,加上推理软件和硬件的效率提升,共同拉低了同等智能的使用门槛。另一方面,更大的推理模型和智能体工作负载,让算力需求还在持续上涨。模型在输出答案前的思考过程,会让单次查询的 token 量增加十倍左右,而智能体完成任务需要链式发起数十次请求,单次深度研究查询的成本,能达到初代 GPT-4 查询的十倍以上。
开源模型在 2025 年始终跟紧了闭源模型的发展脚步,只是最前沿的智能上限,依然由闭源模型把持。年初 DeepSeek 发布的 R1,成了首个挑战 OpenAI 领先地位的开源推理模型,也成了开源领域的关键转折点。
到 2025 年底,全球能力最强的开源权重模型,大多来自中国的 AI 实验室。北京成了全球前沿 AI 创业的核心枢纽,顶尖高校的科研资源,全球最密集的 AI 科研人才,和成熟的产业园区结合,牢牢占据了基础研究的核心位置。上海、杭州、深圳也各自形成了有差异化的 AI 产业集群,从模型孵化到智慧城市应用,再到硬件和机器人制造,覆盖了 AI 产业链的不同环节。除了中美牢牢占据行业领先位置,韩国的主权 AI 计划也催生出了多个接近前沿水平的 AI 实验室,政府通过全国性的竞赛筛选本土模型厂商,提供资金和 GPU 算力支持,LG AI Research、SK telecom 等企业,都推出了自己的开源推理模型。
图像和视频生成 AI,在 2025 年真正走到了主流应用的临界点。文生图模型的能力实现了大幅跃升,年底排在首位的 GPT Image 1.5,比 2024 年底的头部模型 FLUX1.1 [pro] Ultra,高出了 150 个 ELO 积分。基于指令的图像编辑模型快速普及,多图输入的编辑能力成了主流产品的标配,模型对输出图像的控制精度大幅提升。视频生成的突破更为明显,年底领先的 Runway Gen-4.5,比 2024 年底的标杆模型 Sora,高出了 200 个 ELO 积分。
图生视频的能力成了行业竞争的核心,用户可以更精细地控制视频生成的内容,还能在不同镜头里保持人物形象的一致性。2025 年 5 月发布的 Veo 3,是首个高质量、主流化的原生支持音频生成的视频模型,之后 OpenAI、字节跳动、阿里巴巴等厂商,都快速跟进了视频原生带音频的能力。和语言模型不同,专注于媒体生成的垂直 AI 实验室,在 2025 年依然能和综合型大厂商同台竞争,没有被全模态布局的巨头甩开差距。中美厂商在媒体生成模型上,也基本保持了能力对等的水平,字节跳动的 Seedream 4.5、可灵 2.5 Turbo,和美国头部厂商的同类型产品,能力上没有明显差距。
语音 AI 在 2025 年的核心突破,来自原生语音转语音模型的成熟。端到端的原生音频推理,去掉了传统语音流程里的大语言模型中间环节,让模型可以直接基于声学信息完成推理,不仅降低了延迟,还提升了上下文理解的准确性。xAI 在主流音频基准测试上拿下了整体领先,取代了此前占据首位的谷歌,AWS 的 Nova 2.0 Sonic 则成了语音模型里的性价比标杆。语音转文字的词错误率持续下降,适配语音智能体的超低延迟实时版本也陆续落地,文转语音模型对语气、情绪、韵律的控制能力大幅提升,连笑声、叹息、呼吸这类副语言细节,都能通过文本标记实现精准生成。
AI 算力基础设施在 2025 年完成了关键的迭代。NVIDIA 的 Blackwell 系列系统正式进入量产阶段,B200 芯片全面落地生产负载,GB200 NVL72 机架级系统实现了满负荷生产。IBM 的 Granite 4 系列模型,是首批官宣基于 GB200 集群训练的模型,OpenAI 的 GPT-5.3 Codex,是首个明确披露用 GB200 完成训练的前沿大模型。NVIDIA 在 2025 年三季度发布了 B300 和 GB300 芯片,HBM3e 显存达到 288GB,相比 B200 提升了五成,FP4 算力达到 14 PFLOPs。
推理软件在这一年里完成了市场整合,行业核心集中在 vLLM、SGLang 和 NVIDIA TensorRT-LLM 三个开源框架上。NVIDIA 依然牢牢把持着 AI 加速器市场的主导地位,尤其是前沿模型训练领域,但挑战者也实现了关键的突破。2025 年 12 月,NVIDIA 以约 200 亿美元的价格收购了 Groq,计划将其 LPU 技术整合进自身的产品体系。谷歌的 TPU v6 在 2024 年底实现全面商用,支撑了 Gemini 2.5 Pro 和 Gemini 3 Pro 的全流程训练。