2025上半年AI核心成果及趋势报告

关于报告的所有内容,公众号『行业报告智库』阅读原文或点击菜单获取报告下载查看。

2025年上半年,通用类Agent开始进入主流视野。这些Agent能够通过自然语言交互完成多种任务,它们不仅能够生成文字报告,还能调用工具获取数据,甚至进行视觉操作。一些智能体通过截取屏幕图像,模拟人类操作界面,完成复杂的任务,如查询交通票务、规划出行攻略等。这种技术的优势在于多样化工具使用和打破数据孤岛,但也面临运行成本高、准确率不高的局限。

垂类Agent也在不断涌现,成为特定领域的得力助手。例如旅行Agent,用户可以通过自然语言提出出行需求,Agent会自动查询机票、酒店信息,并生成旅行计划。在设计领域,一些Agent通过自然语言交互生成接近生产级的海报或视频;在创作领域,一些Agent能够根据简单的语言和图片输入生成完整的视频内容;在时尚领域,一些Agent可以通过自然语言生成时尚穿搭,匹配不同场景。

AI编程成为2025年上半年最核心的垂类应用领域,正在从源头改变软件生产方式。头部编程应用如Cursor的年度经常性收入(ARR)突破5亿美元,证明了AI编程的巨大价值。AI编程工具从最初的代码补全,发展到单文件代码编辑、多文件同时编辑,甚至端到端交付,极大地提高了开发效率。

2025年上半年,推理模型的能力取得了显著进步。自2024年底以来,以思维链技术为核心的推理模型通用推理能力持续提升。OpenAI的o3模型和DeepSeek的实验模型在国际数学奥林匹克竞赛中表现出色,能够通过自然语言推理解决复杂问题。在代码竞赛中,模型的表现也大幅提升。

大模型开始端到端融合视觉和文本,走向多模态推理。VisProg框架通过生成符号化程序解决视觉任务,ViperGPT框架直接生成Python代码调用视觉API,而Visual Sketchpad框架则通过生成代码调用绘图工具辅助推理。这些技术使得模型能够处理复杂的视觉和文本任务,如精确提取手写题目中的文本和图表、搜索图像信息并进行推理等。OpenAI的o3模型在视觉推理任务中表现出色,能够像侦探一样推理,放大照片局部细节并调用工具进行多次检查。

强化学习在2025年上半年成为驱动模型智能的核心技术。一些模型通过大规模强化学习训练,显著提升了模型的推理能力和工具使用能力。强化学习的关键在于奖励模型的设置,对于代码、数学等有明确答案的领域,奖励模型相对容易设置;而对于没有清晰反馈的领域,则需要通过专门的模型对表现进行评分。强化学习的算力要求较高,未来将成为算力消耗最大的部分。

多智能体(Multi-Agent)系统可能成为继思维链推理模型之后的下一个前沿范式。多智能体系统通过分布式处理和并行工作,提高了效率和计算速度,适合大规模动态环境。Grok4Heavy、Claude的Research功能和Manus等都采用了多智能体架构。多智能体系统的优势在于高效利用上下文、能力多样化、鲁棒性与容错性。未来,多智能体系统将在更多领域得到应用,进一步提高智能上限。

2025年上半年,AI领域的头部玩家在模型层的差距正在缩小。例如xAI成立仅2年时间,凭借充足的资本、算力和人才支撑,迅速完成了对第一梯队的追赶。xAI的成功证明大模型业务模式虽然有高壁垒,但没有护城河,模型厂商需要持续投入大量资源以应对市场竞争。上半年,谷歌发布的Gemini 2.5Pro和xAI发布的Grok 4在多个领域达到了SOTA水平,部分能力甚至超过了OpenAI。

AI编程领域成为模型厂商的必争之地。海外和国内头部玩家在AI编程的模型和产品领域密集布局。OpenAI推出了Codex工具和ClaudeCode命令行编程工具;谷歌发布了GeminiCode和Stitch等工具;阿里巴巴开源了Qwen3-Coder模型并推出了通义灵码编程Agent;字节跳动发布了Trae编程IDE,用户月活已破百万。国内头部模型玩家主要采取跟随、对标海外模型厂商和明星应用的策略,积极构建AI编程生态。

国内大模型创业公司的路线开始分化。部分厂商积极发布前沿模型产品,追求智能上限;其他厂商则专注于垂类领域和商业化落地,放缓通用模型投入。DeepSeek开源了多个模型,包括推理模型、代码模型和Agent模型;智谱·AI发布了GLM-Z1、AutoGLM和CogView4等模型;而一些创业公司则专注于训练产业大模型,提供深度的私有化部署服务。

社交账号快速登录