关于报告的所有内容,公众号『行业报告智库』阅读原文或点击菜单获取报告下载查看。
人脑是自然界最复杂的结构之一,其高度的复杂性和强大的功能为具身机器人的设计提供了灵感。人脑由大脑、小脑、脑干和间脑组成,各部分协同工作,实现从高级认知到基本生命维持的多种功能。在具身机器人中,人脑的结构和功能被巧妙地映射到机器人的硬件和软件系统中。
大脑在人脑中负责高级认知功能,如思维、记忆、语言和决策。在具身机器人中,这一功能由中央控制器承担,尽管目前的机器人尚未完全具备人类大脑的高级认知能力,但随着技术的进步,未来有望实现更复杂的语义理解和环境信息处理。小脑则负责运动协调和平衡,这一功能在具身机器人中通过动作学习模仿和复杂动作控制来实现。脑干和间脑则负责生命维持和信息中转,这在机器人中对应于电源管理、通信网关控制和传感器状态管理等功能。
具身机器人的算法方案主要分为分层决策模型和端到端模型两种路线。分层决策模型将任务分解成不同层级,以多个神经网络训练,再以流程管线的方式组合。这种模型的优点是能够实现复杂的任务分解和多层级的决策控制,但缺点是不同步骤间的对齐和一致性需要解决。端到端模型则通过一个神经网络完成从任务目标输入到行为指令输出的全过程,这种模型的优点是能够实现从感知到执行的无缝连接,但缺点是训练数据海量、消耗资源巨大、机器人执行实时性差。
在实际应用中,分层决策模型和端到端模型各有优势。分层决策模型更适合于复杂的任务分解和多层级的决策控制,而端到端模型则更适合于需要快速响应和实时执行的任务。未来,随着技术的不断进步,这两种模型有望实现更好的融合和协同工作,为具身机器人提供更强大的智能支持。
2025年,国内外厂商在具身机器人领域的大模型进展迅速。银河通用发布了抓取基础大模型GraspVLA,该模型通过预训练和后训练相结合的方式,实现了泛化闭环抓取能力,满足了大多数产品的需求。Figure AI发布了人形机器人VLA通用大模型,通过建立一套互补的系统进行权衡,实现了视觉语言模型和机器人视觉运动策略的有机结合。智元通用发布了具身基座大模型GO-1,提出了Vision-Language-Latent-Action (ViLLA)架构,通过预测Latent Action Tokens,弥合了图像-文本与机器人执行动作之间的鸿沟。
在国际市场上,英伟达发布了通用机器人基座大模型GR00T N1,该模型采用了双系统架构,通过视觉语言模块和扩散转换器模块的紧密耦合,实现了端到端联合训练。GR00T N1在多个机器人实施例的标准模拟基准上优于最先进的模仿学习基线,展现了强大的智能和适应能力。
具身机器人智能化分级及能力展望是未来行业发展的关键。机器人可分为五个智能等级:L1级(完全由人控制)、L2级(基础辅助智能)、L3级(具身智能和训练监督)、L4级(自成长智能)和L5级(完全自主智能)。当前,人形机器人产业正朝着L3级迈进,预计到2026年,具备L3初阶能力的人形机器人将进入适度规模的商业化量产阶段。
L4级具身智能机器人预计将在未来3-5年内落地,主要应用于工业制造和商业服务等领域。这些机器人将在工商业特定活动范围内独立自主完成工作,具有一定的特定场景下的泛化学习能力。L5级具身智能机器人则预计将在未来5至10年内落地,主要应用于家庭环境,成为家庭内的家务助理和个人事务助理。这些机器人将能够在家庭内高度复杂场景完成自主工作,并熟悉理解家庭成员个人信息,成为家庭实体AI Agent。
遥操作技术是具身机器人发展的重要支撑。遥操作是指在相关机器人控制中把人类操作包含在控制回路中,任何的上层规划和认知决定都是由人类用户下达,而机器人本体只是负责相应的实体应用。遥操作技术已广泛应用在医疗领域、极端环境探索如太空与深海场景、防恐防爆应用场景,以及基于工业机械臂的自动化生产中。
特斯拉在2024年发布的Optimus人型机器人的演示视频中,展示了通过VR头显和动捕服进行遥操作训练的过程。这种技术不仅加速了机器人的训练过程,还为具身机器人提供了丰富的数据支持。智元机器人在上海建立的“数据采集工厂”则通过模拟家庭、零售、服务业、餐饮、工厂等场景,为机器人提供了真实的操作环境,加速了机器人的学习和适应能力。