1、具身智能行业定义
具身智能(EmbodiedAI)是指将人工智能算法与物理本体深度结合,使机器具备在真实物理环境中感知、学习、决策及执行复杂任务能力的智能系统。区别于传统非具身人工智能(如大型语言模型、图像识别系统等仅存在于数字空间、缺乏物理反馈能力的“离身智能”),具身智能强调智能体与物理世界的实时交互及闭环反馈。其核心特征在于通过物理本体感知环境信息,并利用计算资源进行逻辑拆解与动作规划,最终通过执行机构产生物理位移或操作,实现对现实世界的实质性影响。
从系统架构层面分析,具身智能由决策层、控制层与执行层共同构成,业内通常将其形象化表述为“大脑”、“小脑”与“本体”的协同闭环,具体如下:
决策层(大脑)负责语义理解、环境建模、任务拆解及路径规划。随着大规模预训练模型(如视觉语言动作模型 VLA)的应用,具身智能实现了从预设程序驱动向自然语言驱动的质变,具备了处理长尾、动态及非结构化场景任务的底层逻辑基础。
控制层(小脑)负责运动学与动力学控制,确保物理本体在作业过程中的动作平滑性、动态平衡及抗干扰能力。控制层通过集成深度强化学习(DeepRL)等算法,解决了复杂地形通过、全身动作协同等高维度控制难题。
执行层(本体)是具身智能实现物理交互的硬件载体,包括机械臂、仿生关节、灵巧手、足端执行器等核心执行模块。高性能执行器模组决定了机器人作业的精度、负载能力及运动边界。
在技术架构层面,具身智能实现了机器学习、计算机视觉、机器人学习与语言技术的深度集成。与侧重于逻辑推理、棋类对弈等抽象计算的离身智能(DisembodiedAI)存在本质差异,具身智能强调智能产生于身体与环境的连续、
动态相互作用过程之中。物理实体的存在使得智能体能够获取真实世界的多模态信息,并在物理操作过程中不断迭代学习,从而展现出卓越的自主性、泛化能力与环境适应性。
具身智能代表了人工智能从数字世界走向物理世界的落地化标志,该领域的深度发展不仅依赖于基础算法的迭代,更要求机器人本体具备模拟人类动作的高自由度肢体结构,从而在零售、餐饮、工厂、医疗等复杂动态场景中完成跨场景、自主学习的任务。通过物理反馈机制,具身智能系统得以持续优化感知与运动控制算法,最终形成能够感知、行动并与人类协作的智能化终端。
2、具身智能行业的产业链情况
产业链上游主要由软硬件基础构成。硬件部分包括执行器关节、高精度传感器、高性能电池及机身结构件等关键组件。具体而言,执行器关节由减速器、电机、轴承、螺丝、编码器等精密零件组成,其中减速器与电机的性能直接决定了机器人的运动精度与负载能力。传感系统则通过激光雷达、摄像头、力矩传感器等设备,为机器人提供多模态环境感知能力。灵巧手作为具身智能实现精细操作的核心部件,其成本结构占整机比重较高,主要包含空心杯电机、行星减速器及触觉传感器等精密部件。
产业链的中游聚焦于“大脑”与“小脑”的开发。大脑层依托于大语言模型、多模态大模型(VLM)及世界模型,负责高层的逻辑推理与任务规划。计算芯片、存储芯片及模拟半导体作为算力基础,支撑着复杂算法的实时运行。小脑层则侧重于灵巧操作与运动控制算法,将大脑生成的任务分解为具体的动作指令序列。
产业链下游为整机集成商与场景应用端。集成商将软硬件进行深度融合,开发出人形机器人、多足机器人等多种形态的机器人产品。应用端则覆盖了工业制造、仓储物流、餐饮零售、医疗康养及科研教育等多元化领域。随着全球工业体系的不断完善,中国企业在产业链环节的覆盖度上已占据显著优势,尤其在执行器制造、整机集成及下游应用场景的开拓上展现出巨大的增长潜力。
3、具身智能行业概况及发展趋势
(1)行业进入高速成长期,全球市场规模呈现指数级增长态势
全球具身智能行业正处于从技术验证迈向大规模商业化的关键拐点,未来十年的市场规模预计将经历指数级扩张,成为驱动机器人行业增长的重要推动因素。这种强劲的增长驱动力源于技术成熟度提升带来的成本下降效应。目前单台人形机器人的售价仍然较高,随着规模化量产与供应链优化,十年内平均售价有望大幅度降低。
在应用落地维度,行业遵循从“确定性场景”向“通用化服务”渗透的路径。工业制造、仓储物流等高投资回报率、低复杂度的结构化环境正率先实现商业化应用。中国本土市场需求已初步显现,汽车产业链、仓储物流、商业服务等领域均已开始尝试引入人形机器人进行上下料、搬运等重复性任务。凭借全球最完善的工业体系,中国具身智能行业预计未来五年将进入快速降本通道,率先触及经济性拐点。
(2)物理形态持续演进,人形和多足机器人成为关键载体
具身智能的发展依赖于算法层面的决策迭代和物理本体形态的深度耦合。早期机器人结构较为单一,导致应用场景主要局限于地面平整的结构化工厂空间。随着具身智能向复杂、动态并且非结构化的应用场景渗透,物理本体形态已呈现出显著的多元化特征,人形机器人和多足机器人已成为具身智能相关前沿技术布局的核心方向。
人形机器人作为具身智能的理想形态,通过模拟人类生理结构,具备了在人类社会现有基础设施中实现无障碍作业的天然潜力。相较于特定功能的专用设备,人形机器人无需对现有工作环境进行大规模改造,即可灵活使用人类工具、操作各类开关或通过狭窄通道。大脑层大模型赋予的语义理解能力,与人形本体具备的二十至三十个高自由度肢体深度结合,使得机器人能够执行搬运、洗涤、精细装配等复杂动作序列。
目前,主流研发逻辑倾向于利用人形本体实现任务的高度通用化,从而解决商业服务与家庭环境中碎片化、长尾化的任务需求,该形态已成为具身智能迈向通用人工智能的关键物理入口。尽管目前行业尚处于商业化早期阶段,但市场规模已呈现高速增长态势。
根据思瀚咨询报告,2025 年全球人形机器人销售额约为 53.5 亿元,2026年至 2030 年,全球人形机器人市场规模预计将从 159.6 亿元增长至 3,013.2 亿元,期间复合增长率超过 100%。随着龙头企业相继进入小批量量产与场景验证阶段,核心零部件供应链逐步成熟,以及具身智能技术向产品端的深度赋能,人形机器人产业正从技术验证期向商业化导入期加速过渡,其市场空间正在快速打开,已成为全球机器人领域最具增长潜力的细分方向之一。
多足机器人凭借非连续支撑的运动逻辑,在复杂、极端的地形适应性方面展现出独特的竞争优势。在面对楼梯、乱石、窄巷等轮式形态难以逾越的非结构化场景时,多足形态通过控制层算法实现了良好的动态平衡与避障能力。得益于小脑层算法的演进,多足机器人能够根据感知信息实时调整足端路径规划,满足电力巡检、野外勘探及抗震救灾等高风险作业环境的机动需求。多足形态不仅是具身智能在特定工业及特种领域的重要分支,更通过与灵巧手等执行模块的模块化集成,实现了移动能力与精细操作能力的有机结合,显著拓宽了具身智能的作业边界。
在消费端,多足机器人正逐步突破传统的极客玩具与科研实验范畴,向家庭陪伴、教育娱乐、智能巡检及养老助残等场景加速渗透。凭借仿生行走、环境感知与人机交互能力的持续提升,多足机器人能够适应楼梯、不平地面等非结构化家庭环境,填补传统轮式机器人难以覆盖的市场空白。随着核心部件成本下降及AI 交互技术成熟,消费级多足机器人有望成为新一代智能消费终端,市场空间广阔。
2025 年全球多足机器人市场规模为 27.5 亿元,其中主要为四足机器人。中国市场多足机器人产业与全球基本同步,2025 年规模约 15.1亿元,预计 2026 年至 2030 年将保持近 50%的年复合增长率。
整体而言,物理形态的不断突破直接决定了具身智能的技术上限与商业化空间。人形本体侧重于对人类社会环境的深度嵌入与通用任务处理,多足本体则侧重于极端复杂环境下的高频机动与稳定作业。两者的并行发展,标志着机器人产业正脱离单一场景的束缚,向具备类人环境适应能力的综合智能终端演进。
(3)感知与决策端智能化
感知与决策端的智能化是提升机器人非结构化环境适应性的核心,主要通过基座模型架构升级、多模态特征融合及通用泛化能力三方面协同驱动。在模型架构方面,技术路径正加速由传统判别式模型向以 Transformer、Diffusion 为代表的大规模生成式神经架构转型,通过构建视觉-语言-动作(VLA)策略网络,显著提升机器人对自然语言指令的语义理解与复杂任务的逻辑拆解精度。在多模态融合方面,通过实时处理视觉、触觉及力觉等高维感知数据,机器人能够实现对作业环境的深度语义建模与亚毫米级的位姿估计。
在此基础上,世界模型(WorldModel)的引入为机器人构建了环境演化的内在表征,使其能够在行动前对不同操作策略的后果进行“心理模拟”与推演,从而在动态、非结构化场景中实现更高效的试错学习与零样本适应。世界模型与 VLA 架构的深度融合,进一步强化了机器人对物理规律、物体属性及时空演变的隐式理解能力。通过上述演进,能够有效降低机器人对预设程序的依赖,使其具备处理精密制造及商业服务中长尾、动态任务的自主决策能力。
(4)国家战略高度重视,政策激励驱动产业链协同创新
中国政府已将具身智能纳入国家核心发展战略,出台了多项政策文件以保障产业的自主可控与领先地位。自 2023 年以来,工信部等部门陆续发布《“机器人+”应用行动实施方案》及《人形机器人创新发展指导意见》,明确将具身智能定位为战略性新兴产业与未来增长引擎。2025 年,具身智能更被写入政府工作报告,国家标准立项工作亦随之展开,标志着行业进入规范化发展的新阶段。
地方政府层面积极响应国家战略,北京、上海、杭州等城市纷纷出台专项规划,设立千亿级规模的引导基金支持产业落地。例如,上海市印发的《具身智能产业发展实施方案》明确提出了阶段性发展目标,通过建立创新中心与协作联盟,推动产业链上下游的深度耦合。
政策的密集出台不仅为技术攻关提供了资金保障,更通过开放应用场景、建立试点示范等方式,有效降低了企业在早期探索阶段的风险。在中美科技竞争的背景下,发展具备自主核心技术的具身智能全产业链,已成为中国实现科技自立自强、提升国家核心竞争力的关键战略举措。
(5)产业链加速标准化及成本控制持续优化
产业链的标准化与成本控制是推动人形机器人从实验室走向量产的核心驱动力。当前阶段,各形态具身智能产品单台制造成本仍然较高,成为规模化应用的主要瓶颈。推动核心部件(如一体化关节、传感单元、控制接口)的标准化设计与模块化封装,有助于构建更加协同、高效的供应链体系。
标准化不仅能够提升零部件在不同整机平台间的通用性,降低定制化开发带来的重复投入,也有利于上游供应商形成规模生产能力,从而实现单位成本的持续下降。模块化架构的建立,还将简化产品维护与升级流程,显著降低用户在全生命周期内的使用成本,为具身智能在工业制造、商业服务等场景中的普及奠定经济基础。
新材料与先进制造工艺的融合为人形机器人实现轻量、高强度、高刚度的综合性能提供了新的可能。未来,高性能碳纤维复合材料、钛铝合金等轻质高强度材料,以及增材制造、拓扑优化等先进工艺,将在结构件和关节部件中得到更广泛应用。通过优化材料分布与结构形态,可在保证整机强度和负载能力的前提下,显著降低运动部件的惯量与整体能耗。轻量化带来的正向循环,将进一步降低对驱动系统的功率需求,从而缩小电池容量、减轻整机重量,形成性能提升与成本下降的良性互动。
(6)中国在具身智能领域展现出显著的先发优势与全球领先的产业竞争力
中国在具身智能领域已展现出显著的先发优势与全球领先的产业竞争力。在产业层面,国家将具身智能、人形机器人列为培育新质生产力的核心方向,为产业发展提供了明确的顶层设计与制度保障。在产业层面,中国拥有全球最完整的机器人产业链,从核心零部件到整机集成,从基础材料到应用软件,形成了高效协同。现阶段,中国在具身智能领域的全产业链协同优势、规模化应用潜力及本土市场容量,正共同构筑起全球领先的产业竞争力,为未来在全球机器人产业格局中占据核心地位奠定了坚实基础。
4、行业竞争格局及主要企业
具身智能行业仍处于技术快速迭代与商业化探索的初期,竞争格局尚未定型,呈现“全球玩家共同探索、本土企业快速突破”的特征。国际上,部分科技巨头与机器人领军企业凭借先发技术积累布局相关产品;国内以优必选、宇树科技、智元、越疆科技为代表的企业,纷纷加速人形机器人、多足机器人等具身智能产品落地与场景验证,行业竞争聚焦于核心技术突破、工程化落地能力及场景适配效率。
(1)优必选(9880.HK)
深圳市优必选科技股份有限公司(以下简称“优必选”)成立于 2012 年,主要从事智能服务机器人及智能服务机器人解决方案的设计、生产、商业化、销售、营销及研发。核心产品包括人形机器人、智能商用服务机器人及教育机器人等。
(2)宇树科技
宇树科技股份有限公司(以下简称“宇树科技”)成立于 2016 年,专注于高性能通用人形机器人、四足机器人、机器人组件及具身智能模型的研发、生产和销售业务。
(3)智元机器人
智元创新(上海)科技股份有限公司(以下简称“智元机器人”)成立于 2023年,是专注于通用具身智能机器人研发的企业,其核心产品包括远征系列及开源人形机器人灵犀 X1。其产品主要面向工业制造及家庭服务场景。
(4)特斯拉
特斯拉(Tesla, Inc.)成立于 2003 年,是美国电动汽车企业,在人形机器人领域亦有布局,核心产品为通用人形机器人 Optimus(擎天柱)。产品深度复用其自动驾驶(FSD)感知算法与算力底座,主要面向汽车制造及通用服务场景。
(5)Figure
Figure AI, Inc.成立于 2022 年,是一家专注于开发人形机器人的科技企业,其核心产品为 Figure 系列人形机器人。通过与 OpenAI 合作实现大模型赋能,使其产品具备卓越的语义理解与端到端任务执行能力,主要面向工业制造及商业物流场景。
(6) 越疆科技
越疆科技成立于2015年(港股代码:02432)总部位于深圳市南山区。当前,具身智能作为人工智能与机器人技术深度融合的前沿方向,仍处于技术快速迭代与商业化加速探索期。
公司依托机器人本体、核心零部件、运动控制、安全交互等全栈自研技术,结合十余年行业深耕与超十万台机器人的规模化部署及持续迭代,打造出行业领先的机械臂能力,并沉淀了丰富的场景经验与工程化实力,叠加自研具身模型技术,公司构建起“人形机器人+多足机器人+双臂机器人”的全形态具身智能产品矩阵,相关产品均已实现商业化落地,为国内首批进入人形机器人量产阶段的企业之一。
凭借技术前瞻性、全形态产品布局及多场景落地能力,公司已成为全球具身智能领域中少数可在工业制造、商业服务及科研教育等场景实现规模化部署的行业先行者。

