关于报告的所有内容,公众号『行业报告智库』阅读原文或点击菜单获取报告下载查看。
当下的具身智能,早已不是实验室里的小众概念,而是成了全球科技竞争的战略焦点。主要经济体都在政策层面完成了对这条赛道的布局。资本市场的反应更为直接,截至 2025 年 9 月,国内具身智能领域投资事件数已接近 500 起,融资总额突破 300 亿元人民币,资金覆盖了从硬件制造、算法研发到场景落地的全产业链,人形机器人更是成了全球资本追逐的核心标的。
热度之下,行业最核心的现实瓶颈还是问题。业内普遍形成共识,具身智能要实现能力的涌现,至少需要百万小时来自真实世界的物理互动数据,而目前全行业积累的数据量,还不到这个数字的 5%。可用数据的巨大缺口,直接卡住了具身大模型能力迭代的脚步,也让数据采集路线的选择,成了所有入局者必须直面的核心命题。
当前行业里,遥操作数据采集依旧占据着主流地位。这种方式能同步、完整地记录下整个操作过程中的所有物理状态变化,形成从动作意图到环境感知,再到物理执行的全链条高保真数据轨迹,是当前行业公认的高质量数据黄金标准。
在具身智能发展的初期阶段,这种数据的价值格外突出,每一条高质量的遥操作演示数据,都能直接、显著地提升机器人在特定任务上的执行成功率。但这条路径也有着无法回避的边界,它高度依赖专业人员的人工操作,采集成本居高不下,规模和效率很难实现指数级增长,单靠这一条路线,根本无法填补百万小时级的数据缺口。
为了破解数据成本、规模与多样性的不可能三角,无本体数据采集的路线正在行业内快速兴起。这条路线的核心思路,是把人类的操作智能与机器人本体进行解耦,让采集到的数据能够跨不同机器人平台迁移,不用再围绕特定的机器人本体搭建昂贵的线下采集工场。目前行业内的探索沿着两个方向同步推进,一个是借助轻量化传感设备,完成中低精度的人类动作捕捉,补充数据维度与动作自由度,另一个则是直接从海量人类运动视频中提取可用数据,为模型提供物体运动、空间关系变化的深度推理能力。
互联网视频数据与合成数据,也正在展现出巨大的潜力。互联网上存量的海量人类动作视频,对于具身智能的意义,堪比当年互联网文本数据对于大语言模型的价值,能够为模型预训练提供近乎无限的燃料。而合成数据则沿着数据仿真与数据合成两条路径持续推进,仿真环境能够通过云端并行化,在短时间内生成海量交互数据,快速覆盖机器人可能遇到的状态空间,数据合成则能针对性弥补真实数据的多样性短板,为算法训练提供规模化的补充。
自动驾驶行业十余年的发展历程,也为具身智能的数据体系建设提供了清晰的参照。这条已经实现规模化落地的轮式具身智能赛道,用实践验证了物理世界的智能迭代,从来无法只靠纯真机采集的静态数据堆砌。自动驾驶行业从对高精地图的深度依赖中逐步转型的过程,也让具身智能领域看清,固定场景下预采集的数据集,永远无法支撑智能体对未知开放环境的适应能力。而自动驾驶行业验证成熟的仿真优先、真机验证范式,也正在被具身智能领域广泛借鉴,大规模仿真数据预训练搭配少量高质量真实数据微调的混合训练模式,正在成为行业内越来越多团队的选择。
数据的积累节奏,也直接决定了具身智能商业化的推进步伐。数十到数百条高质量演示数据,就能让机器人在受限环境中完成确定性的子任务,完成产品原型的工程化验证。当数据积累到万级甚至十万级规模,便足以驱动算法在特定垂直场景中持续迭代,建立起场景化的技术壁垒。只有数据规模实现量级的跨越,才有可能支撑机器人跨场景的高阶功能拓展,实现能力的持续进化。
行业内不同的数据采集路径,从来都不是非此即彼的替代关系,而是在模型训练的不同环节各司其职、相互协同。关于数据路线的争论远没有终结,能不能实现完全无本体的数据采集,至今还是行业内的开放命题。而所有路线的探索,最终都指向同一个核心目标,那就是填平高质量数据的缺口,推动具身智能真正从实验室走向真实的物理世界。