首 页
研究报告

医疗健康信息技术装备制造汽车及零部件文体教育现代服务业金融保险旅游酒店绿色环保能源电力化工新材料房地产建筑建材交通运输社消零售轻工业家电数码产品现代农业投资环境

产业规划

产业规划专题产业规划案例

可研报告

可研报告专题可研报告案例

商业计划书

商业计划书专题商业计划书案例

园区规划

园区规划专题园区规划案例

大健康

大健康专题大健康案例

行业新闻

产业新闻产业资讯产业投资产业数据产业科技产业政策

关于我们

公司简介发展历程品质保证公司新闻

当前位置:思瀚首页 >> 行业新闻 >>  产业科技

人形机器人为何需要高智能的大模型?
思瀚产业研究院    2025-08-10

人形形态并非技术难点,核心在于通用智能的补足

人形形态的机器人早已实现工程落地,但长期停留在“仿形不仿智”阶段。过去的人形机器人主要以模仿人类形态为目标,相关技术早在数十年前已初步成熟。早期典型代表如2000年本田推出的ASIMO与2013年波士顿动力的Atlas,虽具备出色的运动能力,但执行逻辑高度依赖预设行为库。这类机器人可完成跑跳等复杂动作,体现了运动控制硬件的成熟度,但其行为均来自人工设定的指令序列,无法自主理解任务或适应环境变化。

因此,本质上这类产品仍是“人形的机器”,而非“具备人类智能的机器人”。它们缺乏对环境的感知、任务的理解与泛化能力,尚不具备真正的智能交互与通用任务执行潜力。

多模态大模型的出现,为人形机器人装上“智能大脑”

本轮人形机器人热潮的底层驱动力,是市场对其“智能性”的高度期待。随着多模态大模型的突破,机器人首次具备了“感知—理解—决策”的潜力,被视为拥有“大脑”的关键起点。大语言模型(LLM)的成功,验证了通过大规模互联网文本训练神经网络具备推理能力的可行性;而视觉语言模型(VLM)进一步拓展模态边界,使模型可以“看懂图像、理解语言”。LLM专注于文本推理,VLM则通过融合图像/视频与语言等模态信息,构建起跨模态的统一表征体系,从而支持模型理解现实世界的更多维度。

动作模态的融入,让模型端真正赋予机器人执行操作的能力。仅能感知、理解世界并不是机器人大脑的终极目标,机器人的最终目标是在认知的基础上实现与现实世界的动作交互。目前机器人模型的核心迭代方向,是将动作模态融入现有的视觉语言模型。

初级具身智能模型撬动人形机器人产业0-1落地

当前大多数人形机器人仍处于展示阶段,核心瓶颈在于智能程度不足。一旦具备初步智能化能力,机器人即可在特定场景中落地应用,并通过任务反馈不断优化模型,开启数据飞轮与产品迭代循环,从0-1迈向1-100的演化。

数据飞轮是驱动智能系统能力提升的核心机制。本质是“收集数据—改进模型—提升产品—吸引更多用户和数据—再次改进”的正向循环,有望带动人形机器人快速迈入迭代加速期。

当前模型水平有限,距离真正泛化仍有较远距离

现阶段人形机器人仅在智能化的初级阶段。北京市人形机器人创新中心牵头,联合上海市、浙江省人形机器人创新中心,以及优必选、宇树科技、中国信息通信研究院、工业互联网研究院等多家头部企业与科研机构,共同制定了全球首个《人形机器人智能化分级》标准,从感知、决策、执行、协作四维度划分L1-L5五级。目前主流产品智能水平普遍仅在L2左右,尚未具备自主泛化与应变能力。未来向更高智能等级进化仍需突破模型、数据与算力多重门槛。真正实现通用智能机器人仍有较长路径要走,需在技术、数据体系和生态协同上持续积累。

免责声明:
1.本站部分文章为转载,其目的在于传播更多信息,我们不对其准确性、完整性、及时性、有效性和适用性等任何的陈述和保证。本文仅代表作者本人观点,并不代表本网赞同其观点和对其真实性负责。
2.思瀚研究院一贯高度重视知识产权保护并遵守中国各项知识产权法律。如涉及文章内容、版权等问题,我们将及时沟通与处理。