1、Tesla Optimus
2025 年 10 月,埃隆・马斯克在社交平台发布的一段视频,展现特斯拉 Optimus 人形机器人身着黑色作战服,精准复刻抱拳、弓步、格挡等武术动作,面对对手的随机出拳能即时反击,整套动作连贯流畅且始终保持平衡。
马斯克特意澄清:“这不是遥控表演,而是 AI 自主决策的结果”,代表特斯拉机器人大模型取得了重要进展。Optimus 机器人大模型最核心的突破在于抛弃了传统机器人的“模块化分工”模式,采用与特斯拉 FSD 自动驾驶同源的单一基础模型架构,实现了从感知到行动的端到端自主决策。xAI Grok 深度融合:赋予机器人逻辑推理与记忆。
2025 年 Gen 3 版本的关键升级,是将 xAI 的 Grok 模型整合为高级认知模块,让 Optimus 从执行机器升级为思考机器。Grok 模型主要承担三大功能:
自然语言深度理解:不仅能识别“拿一杯水”这类简单指令,还能解析“把客厅茶几上的玻璃杯装满温水,温度不要超过 40 度”等复杂需求,准确率达 92%以上。
情感互动与场景推理:通过语音语调分析人类情绪,当检测到用户疲惫时会自动调整动作幅度和说话音量;在工厂场景中,能根据流水线速度自主调整零件抓取频率。
云端同步记忆:采用可移动记忆技术,让机器人的操作经验和用户偏好能在不同设备间同步。即使某台 Optimus 损坏,更换新机体后仍能保留原有记忆。这种斯拉AI 负责物理行动+xAI Grok 负责逻辑推理的混合架构,实现了本地实时响应与云端复杂计算的完美平衡。
2、Figure AI
2025 年 2 月,Figure AI 宣布放弃 OpenAI 大模型,自主研发 Helix 模型。
Helix 模型是全球首个能够对整个人形机器人上半身进行高频率、连续控制的视觉-语言-动作(VLA)模型,其核心优势在于实现了"感知-理解-决策-执行"的端到端闭环,彻底摆脱了传统机器人对预设脚本的依赖。
多模态融合能力。Helix 模型整合了视觉、语言、触觉等多种感知模态,能够像人类一样看懂环境、听懂指令、感知物体。在视觉层面,它能通过摄像头实时构建三维环境地图,识别物体位置、形状及状态;在语言层面,支持自然语言指令理解,可准确解读“把餐具放进洗碗机”、“整理桌面”等复杂任务;
在触觉层面,能将传感器数据转化为对物体属性的认知,为操作决策提供依据。2025 年 9 月的演示中,Figure 机器人在 Helix 模型的控制下,完成了装载洗碗机的任务。这一过程中,机器人需要通过视觉识别餐具类型和位置,通过语言理解任务要求,通过触觉感知餐具材质和重量,三种模态数据实时融合,最终生成流畅的操作动作。更关键的是,这一能力是在没有新算法和专门工程化处理的情况下,仅通过新增数据实现的。
多机器人协同能力。Helix 模型的另一大突破是支持多机器人协同运行,这为人形机器人的规模化应用奠定了基础。在宝马斯帕坦堡工厂,多台 Figure02 机器人依托Helix 模型组成自主舰队,能够自主分配任务、协同完成零件搬运和设备巡检工作,较单台机器人作业效率提升 4 倍以上。这种协同能力并非简单的任务分配,而是通过实时数据共享实现的动态协作——当某台机器人遇到障碍时,会自动将任务分配给附近空闲的机器人,确保整个生产流程不受影响。
快速技能迁移能力。传统机器人需要针对不同任务进行单独编程,而 Helix 模型具备强大的技能迁移能力,能够将在某一场景习得的技能快速应用到新场景。2025 年 8 月,Figure AI 展示了令人震惊的技能迁移案例:原本在物流场景从事分拣工作的机器人,在仅增加叠衣服数据、未改变任何硬件和算法架构的情况下,轻松掌握了叠衣服的技能;一个月后,同一台机器人又学会了装载洗碗机。这种跨场景技能迁移能力,大幅降低了机器人适应新任务的成本,使其能够快速响应不同行业的需求。
数据驱动的进化逻辑。Helix 模型的强大能力,源于 FigureAI 构建的数据飞轮体系。公司与 Brookfield 资产管理公司的合作,为其提供了全球最大且最多元化的真实场景人形机器人预训练数据集——Brookfield 旗下的物流仓库、商业建筑、制造工厂等场景,成为 Helix 模型的训练场,每天产生数百万条真实任务数据。这些数据通过 BotQ工厂的自动化系统实时回传至 Figure AI 的训练平台,经过清洗、标注后用于 Helix 模型的迭代优化。优化后的模型又被部署到机器人上,在真实场景中完成更复杂的任务,产生更多高质量数据,形成数据采集-模型训练-场景应用的闭环。这种数据飞轮效应,使得 Helix 模型的能力呈指数级增长,也让 Figure 机器人的任务成功率从初代的不足50%提升至 Figure 03 的 98%以上。
Figure AI Helix 大模型原理图
数据来源:Figure AI 官网,东吴证券研究所
3、Physical Intelligence
Physical Intelligence 成立于 2024 年 3 月,总部位于美国旧金山,创始团队包括来自 Google、Stanford、UC Berkeley 等知名机构的人工智能与机器人科学家。公司聚焦通用家用机器人,利用通用人工智能(AGI)应对多种不同家务场景。公司一直在开发机器人基础模型,可以推广到各种各样的环境中。公司最新的π0.5建立在其视觉-语言-行动(VLA)模型π0 的基础上,进步很大,可以指挥机器人清理训练数据中没有看到的新家的厨房或卧室。
π0.5 背后的主要原则是异构数据的协同训练。通过在各种不同的数据源上训练,可以教模型如何物理上执行不同的技能,还可以教它如何理解每个技能的语义上下文(例如,如果任务是打扫厨房,哪些物品适合捡起和收起,以及将它们放在哪里),推断任务的高级结构(例如,铺床所需的步骤),甚至从其他机器人那里转移物理行为。
公司估值 24 亿美元。在 2024 年 11 月,公司大模型π0 产品公布后数天,PhysicalIntelligence 宣布获得 4 亿美元融资,累计融资 4.7 亿美元,投后估值达 24 亿美元。领投方为亚马逊创始人 Jeff Bezos 和 OpenAI 等。据硅谷科技媒体 The Information 9月 10 日报道,知名具身智能模型软件公司 Physical Intelligence 正在以 50 亿美元的估值洽谈新融资。
Physical Intelligenceπ机器人大模型的训练方法
数据来源:Physical Intelligence 官网,东吴证券研究所
4、Skild AI
Skild AI 成立于 2023 年,总部位于美国匹兹堡,聚焦开发适合不同形态具身智能的 AI 大模型。Skild AI 由两位卡内基梅隆大学的教授 Pathak 和 Gupta 在 2023 年共同成立。两人分别从伯克利和马里兰大学取得博士学位,且都在人工智能和机器人领域有深厚的学术研究经历和贡献,提出了诸如自监督机器人、好奇心驱动 AI 训练和自适应机器人学习等理论。
Skild AI 模型的训练逻辑类似于 AI 大语言模型的训练逻辑,Skild AI 向模型输入巨大体量的高质量机器人动作数据,让模型最终具备一定程度的通用智能,能够无需针对新环境重新训练便能顺利实现部署。
Skild AI 更专注于软件模型的开发而非机器人本体的制造。现阶段看,他们的商业模式更接近于成为人形机器人的上游核心技术供应商,赋能更多中游的机器人制造企业打造更好的产品。软硬分离的策略,也使其价值创造不局限在人形机器人,传统机械臂、运输机器人、四足机器人、一般扫地机器人也都可以搭载 Skild 大脑。机器人能够理解自身的状况和功能,以及不同的环境和场景,在设计功能之外拓展更多应用场景。
估值已达 45 亿美元。Skild AI 在 2024 年 7 月收获 3 亿美元 A 轮融资,估值达 15亿美元,累计融资达 5.5 亿美元,领投方为 Lightspeed Venture Partners、Coatue、SoftBank 等。资金将用于团队扩充和通用模型开发。据彭博社 2025 年 6 月 12 日报道,芯片设计公司英伟达与消费电子制造商三星电子已计划对人工智能机器人软件初创公司 Skild AI 进行投资。此举被视为两家公司在机器人领域持续布局的一部分。交易完成后,两家公司将持有 Skild AI 的少数股权。此轮融资后,Skild AI 的估值约为 45 亿美元。
5、通研院
北京通用人工智能研究院是 AI 国家队。其是在北京市委市政府的指导和支持下,由北京市科委推动成立的非营利性世界一流新型研发机构。2020 年 9 月,朱松纯教授以人工智能战略科学家的身份回国创建北京通用人工智能研究院,并担任院长。在北京市、科技部、教育部共同扶持下,与北京大学、清华大学等优势单位开展广泛合作,共同致力于在通用人工智能领域开展战略性、前瞻性、基础性科技创新,聚力打造具备人类核心认知能力的通用智能体,是建设北京国际科创中心的一支重要力量。
2025 年,在中关村论坛上,通研院正式推出“通智大脑”全栈式具身智能底座。“通智大脑”是通研院自主研发的通用具身机器人大脑,基于全球首个通用智能人“通通”的核心技术,深度集成遥操作、视觉感知、导航定位、灵巧操作与任务规划等核心技术,构建了贯通感知—理解—决策—执行的具身智能体框架。同时,通研院联合乐聚、宇树等企业共同发起成立“通智大脑联盟”,聚焦垂直领域的“通智大脑”与具身本体的协同研发与应用,加速关键技术突破与产业化落地。
和宇树合作提供大脑。2024 年 6 月 27 日,通研院与宇树科技签署合作协议,共建具身智能与人形机器人联合实验室,通研院常务副院长董乐、宇树科技联合创始人陈立共同为实验室揭牌。2025 年 9 月 24 日,品茗科技控股股东、实际控制人莫绪军、股东李军、陶李义、李继刚及新余灵顺灵创业投资合伙企业(有限合伙)与通智清研(北京)科技产业发展合伙企业(有限合伙)共同签署了《关于品茗科技股份有限公司股份转让协议》,转让方合计向受让方转让其持有的上市公司无限售流通股 12,552,212 股,占上市公司股份总数的 15.9206%。
通智清研执行事务合伙人为通智人工智能科技(北京)有限公司和嘉兴通清智研私募基金管理有限公司,通智清研的实际控制人为通智人工智能科技(北京)有限公司,通智人工智能科技(北京)有限公司系北京通用人工智能研究院持股 100%的企业。
6、银河通用
银河通用是市场领先的具身多模态大模型通用机器人企业。成立于 2023 年 5 月,银河通用致力于为全球用户提供通用机器人产品,并已率先在商业、工业、医疗等场景中广为应用。银河通用选择以合成数据驱动的具身大模型研发。在大多数机器人公司仍依赖真实环境数据采集时,银河通用已经通过仿真合成数据训练机器人。
银河通用合成数据在整个训练数据中的占比高达 99%以上,这使得银河通用能够以极低边际成本快速生成大量多场景适应的训练数据。公司自主研发的仿真数据生成管线,可以批量生成高多样性、多场景适应的合成数据,解决了传统真实数据采集成本高昂、场景适应性差的问题。银河通用提出了“三层级大模型系统”,包括硬件层、技能层和顶层大模型。
通过这一创新架构,机器人能够理解人类语言指令并自主完成任务规划与执行。在数据层面,公司自研合成了几千万级的场景数据以及数十亿级的抓取和导航数据,使机器人实现了跨场景、跨物体材质等方面的泛化抓取,成功率高达 95%。
2025 年,银河通用发布了端到端具身大模型 GraspVLA。训练数据达到十亿帧“视觉—语言—动作”的规模,涵盖了广泛的抓取和移动任务。该模型在未见过的真实场景中实现了零样本测试,展现出卓越的泛化能力。
根据 AI 科技评论数据,截至 2025 年 6 月,银河通用估值为 115 亿元。
7、智元机器人
智元机器人致力以 AI+机器人融合创新,打造全球领先的通用具身机器人产品及应用生态。公司成立于 2023 年 2 月,由全球著名企业核心高管、人工智能领域顶尖科学家等资深产业人士共同创立。2025 年 1 月,智元机器人第 1000 台通用具身机器人正式量产下线。
2025 年 3 月 10 日,智元发布首个通用具身基座模型——智元启元大模型(GenieOperator-1)。它提出了 Vision-Language-Latent-Action (ViLLA) 架构,该架构由 VLM(多模态大模型) + MoE(混合专家)组成,其中 VLM 借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE 中的 Latent Planner(隐式规划器)借助大量跨本体和人类操作视频数据获得通用的动作理解能力,MoE 中的 Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力,三者环环相扣,实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体,持续进化,将具身智能推上了一个新台阶。
7、星动纪元
公司成立于 2023 年 8 月,星动纪元由清华大学交叉信息研究院孵化而来,以构建“原生通用具身智能体”为目标,专注于人形机器人核心技术研发。2025 年 7 月,星动纪元推出了首个同时能实现“大运动+巧操作”的全尺寸双足人形机器人——星动 L7,它也是国内首个由 VLA 大模型驱动、具备全身 55 个自由度的双足人形机器人。其核心驱动力来自于星动纪元自研的端到端 VLA 具身大模型 ERA-42。基于此模型,机器人拥有了“智慧大脑”,通过观看人类操作视频即可直接学习新技能,大幅降低数据成本,能够快速切入全新场景,实现从 0 到 1 的技能学习与应用。
9、星海图
星海图(北京)人工智能科技有限公司成立于 2023 年 9 月,是一家专注于具身智能基础模型及具身智能机器人研发的人工智能公司。公司坚持 AI 算法与本体协同研发的发展思路。从技术的边界和场景的需求出发定义本体形态,自主设计并制造本体,实现从核心模组、具身本体、数据、端到端基础模型及场景解决方案全栈自研,并基于每一代的智能体产品探寻具身智能的 Scaling Law,以此迈向通用具身智能的星辰大海。
在具身基础模型的研发上,星海图围绕具身智能的快-慢双系统模型架构 EFM-1(Embodied Foundation Model-1),融合“慢思考”的数百亿参数视觉语言大模型(VLM)与“快执行”的数十亿参数动作大模型(VLA),实现从感知理解到精确控制的闭环决策。其中,VLA 模型基于全球最大规模的星海图单本体真机数据集进行训练,聚焦突破具身智能在动作与对象泛化上的核心瓶颈。
星海图 CEO 高继扬负责感知算法。其拥有清华电子工程本科、南加州大学计算机视觉博士学历,曾在 Waymo 参与自动驾驶汽车的“大脑”VectorNet 等核心算法的研发,是业界少数从自动驾驶迁移到具身智能的算法专家之一。
10、自变量机器人
自变量机器人科技有限公司(X Square Robot)成立于 2023 年 12 月,聚焦自研“通用具身智能大模型”,以真实世界数据为主要数据来源,构建具备精细操作能力的通用机器人,是国内最早采用完全端到端路径实现通用具身智能大模型的公司之一。
公司自研的「GreatWall」操作大模型系列的 WALL-A,具备自主感知、决策与高精度操作能力,已在多个维度达到全球领先。创始人王潜曾在美国顶尖机器人实验室研究机器人学习和人机交互,研究经历涵盖机器人操作和家庭服务机器人相关的领域。同时,公司坚持软硬一体同步迭代,自主研发并持续优化适配多模态大模型控制的机器人本体,更好地满足开放环境中的精细操作和稳定运行需求。
更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。