2026年AI趋势研究白皮书

2026 年第一季度的 AI 行业,没有等来又一个碾压式的大模型发布,却迎来了整个赛道的底层逻辑重构。所有人都在谈论的不再是谁家模型参数更多谁的回答更聪明,而是谁能把 AI 做成一套能自己跑起来的工作系统。这不是一次产品迭代,是一种全新软件形态的正式诞生。

OpenClaw 这个季度最爆火。它在 60 天里从 9000 个 GitHub 星涨到 247K,月活用户突破 200 万。这种热度蔓延到了线下,一个安装资格曾在二手市场被炒到 1000 元。更惊人的是企业端的渗透速度,有 22% 的员工在未经 IT 部门批准的情况下,已经开始在日常工作中使用这款工具。资本的反应同样迅速,OpenAI 在情人节当天直接收购了 OpenClaw 创始人,将其纳入核心产品体系。Cognition 收购 Windsurf 后估值直接冲上百亿大关,Devin 的经常性收入实现了指数级增长。

中国市场的反应比硅谷更激烈。业内把这场混战叫做龙虾大战,从 1 月到 3 月,至少九家公司推出了自己的桌面 Agent 产品。阶跃星辰最早在 2025 年 9 月就上线了 Mac 版,MiniMax 在 1 月推出 Agent2.0 桌面端。2 月大厂集中入场,腾讯发布 WorkBuddy 和 QClaw,字节的火山引擎推出 ArkClaw,阿里 QoderWork 在 3 月全面开放,百度智谱月之暗面也各自拿出了不同路线的产品。

一个容易被忽略但足以改写行业格局的事件发生在 3 月 21 日。技术社区发现,硅谷最热门的编码 Agent 工具 Cursor 所谓的自有模型 Composer2,实际上是月之暗面在 1 月 27 日发布的 Kimi K2.5 开源模型。这家年化收入 20 亿美元估值传闻 500 亿的硅谷公司,核心能力来自一家中国创业公司。技术输出的方向,在这个季度悄然逆转。

编码 Agent 赛道的渗透深度已经超出了大多数人的想象。字节的 Trae 不到一年拿下 600 万全球开发者,内部覆盖 92% 的工程师,全年生成近 1000 亿行代码。腾讯 CodeBuddy 覆盖内部超 90% 的工程师,编码时间缩短 40% 以上,AI 代码占比超过 50%。阿里内部 40% 的代码已经由 AI 生成。这些数据和 Anthropic 公布的超过 90% 新代码由 AI 生成的数字同频共振。

行业竞争的核心已经彻底从模型转向了系统。Harness Engineering 这个概念在六周内从一篇个人博客变成了全行业的共识。它不是什么高深的理论,是被无数次失控的 bug 硬生生逼出来的解决方案。LangChain 的实验数据显示,同一个模型,仅仅换上一套更精巧的 Harness 架构,Terminal Bench2.0 的通过率就能从 52.8% 拉升到 66.5%。

Anthropic 的数据更直白,Solo Agent 做一个 2D 游戏花 9 美元用 20 分钟,但成品根本无法运行。Full Harness 花 200 美元用 6 小时,产出的游戏功能完整可以实际游玩。20 倍的成本换来的不是更好一点的体验,是能用和不能用的本质区别。

AI 落地不只是算法题,更是一道工程题。随着主流大模型能力差距缩小,企业竞争核心不再是模型本身的强弱,而是通过工程化手段发挥模型价值的能力。字节跳动开源的 DeerFlow2.0,在产品定位里直接使用了 Super Agent Harness 这个词,一个月内从 22K 星飙到 52K 星,登顶 GitHub Trending 全球榜首。

研发场景成为第一个跑通完整闭环的领域。MiniMax M2.7 在 100 多轮自主迭代后,内部评测提升 30%,SWE-Pro 得分追平 GPT-5.3-Codex。Google DeepMind 的 AlphaEvolve 找到的调度优化方案,为 Google 全球数据中心回收了 0.7% 的算力,换算成成本是数十亿美元级别。Karpathy 用 630 行 Python 代码写出的 Autoresearch 框架,能在单 GPU 上一晚跑 50 个实验,三天就拿到了 35K 个 GitHub 星。

中国这边,月之暗面创始人杨植麟明确表示,从今年起 AI 研究进入 AI 主导阶段。小米 MiMo 大模型负责人罗福莉透露,利用顶尖模型加 Agent 框架,大模型研究效率已经提升接近十倍。

人类的领域经验终于找到了标准化的承载方式。ClawHub 在不到半年的时间里积累了 13700 多个 Skill,单个 Skill 的最高安装量达到 18 万。每个 Skill 都是一个结构化的知识包,包含触发条件标准操作流程可执行脚本和参考资料。它把资深工程师踩坑换来的实操经验,变成了所有 Agent 都能读取和执行的格式。

但快速扩张也带来了严重的安全问题,平台上已经出现了 341 个恶意 Skill 事件,占市场总量的 11.3%。Vercel 的评测数据暴露了另一个核心问题,静态的 AGENTS.md 文件测试通过率能达到 100%,而更复杂的 Skill 检索系统默认行为下只有 53%。有 56% 的情况,Agent 根本不会主动调用已经存在的 Skill。

最新的行业数据显示,全球企业 AI 采用率已经达到 47.6% 的历史新高。Anthropic 的企业采用率从一年前的 4% 飙升到 24.4%,新客户转化率达到 70%,年化收入 190 亿美元。Claude Code 单日最高产生 326K 次公开 GitHub 提交,占全球公开提交总量的 4%,预计这个数字在年底会达到 20%。头部模型在 SWE-bench Pro 基准上的得分已经基本持平,Codex56.8%,Opus4.655.4%,M2.756.22%。没有人再单纯比拼模型分数,所有人都在拼命搭建能让模型稳定运行的系统。

关于报告的所有内容,公众号『行业报告智库』阅读原文或点击菜单获取报告下载查看。

社交账号快速登录