人形形态的机器人早已实现工程落地,但长期停留在“仿形不仿智”阶段。过去的人形机器人主要以模仿人类形态为目标,相关技术早在数十年前已初步成熟。早期典型代表如2000年本田推出的ASIMO与2013年波士顿动力的Atlas,虽具备出色的运动能力,但执行逻辑高度依赖预设行为库。这类机器人可完成跑跳等复杂动作,体现了运动控制硬件的成熟度,但其行为均来自人工设定的指令序列,无法自主理解任务或适应环境变化。
因此,本质上这类产品仍是“人形的机器”,而非“具备人类智能的机器人”。它们缺乏对环境的感知、任务的理解与泛化能力,尚不具备真正的智能交互与通用任务执行潜力。
多模态大模型的出现,为人形机器人装上“智能大脑”
本轮人形机器人热潮的底层驱动力,是市场对其“智能性”的高度期待。随着多模态大模型的突破,机器人首次具备了“感知—理解—决策”的潜力,被视为拥有“大脑”的关键起点。大语言模型(LLM)的成功,验证了通过大规模互联网文本训练神经网络具备推理能力的可行性;而视觉语言模型(VLM)进一步拓展模态边界,使模型可以“看懂图像、理解语言”。LLM专注于文本推理,VLM则通过融合图像/视频与语言等模态信息,构建起跨模态的统一表征体系,从而支持模型理解现实世界的更多维度。
动作模态的融入,让模型端真正赋予机器人执行操作的能力。仅能感知、理解世界并不是机器人大脑的终极目标,机器人的最终目标是在认知的基础上实现与现实世界的动作交互。目前机器人模型的核心迭代方向,是将动作模态融入现有的视觉语言模型。
初级具身智能模型撬动人形机器人产业0-1落地
当前大多数人形机器人仍处于展示阶段,核心瓶颈在于智能程度不足。一旦具备初步智能化能力,机器人即可在特定场景中落地应用,并通过任务反馈不断优化模型,开启数据飞轮与产品迭代循环,从0-1迈向1-100的演化。
数据飞轮是驱动智能系统能力提升的核心机制。本质是“收集数据—改进模型—提升产品—吸引更多用户和数据—再次改进”的正向循环,有望带动人形机器人快速迈入迭代加速期。
当前模型水平有限,距离真正泛化仍有较远距离
现阶段人形机器人仅在智能化的初级阶段。北京市人形机器人创新中心牵头,联合上海市、浙江省人形机器人创新中心,以及优必选、宇树科技、中国信息通信研究院、工业互联网研究院等多家头部企业与科研机构,共同制定了全球首个《人形机器人智能化分级》标准,从感知、决策、执行、协作四维度划分L1-L5五级。目前主流产品智能水平普遍仅在L2左右,尚未具备自主泛化与应变能力。未来向更高智能等级进化仍需突破模型、数据与算力多重门槛。真正实现通用智能机器人仍有较长路径要走,需在技术、数据体系和生态协同上持续积累。