当前位置:首页 >综合 > 正文

机器人跨越“三重门”——具身智能创新者亲历的现实与趋势丨议事厅【稳定币】

2025-11-03 05:30:58综合

【本期嘉宾】

王 鹤 北京银河通用机器人有限公司创始人兼首席技术官

王 潜 自变量机器人公司创始人兼首席执行官

赵维晨 加速进化(北京)机器人科技有限公司副总裁

【主持人】

张漫子 王若辰

装配夹爪的“量子2号”机器人,在2025世界机器人大会展台演示使用清洁工具进行360度无死角全方位清洁。机器受访者供图

今年的人跨人形机器人赛道 ,上演着一场“冰与火之歌” 。越具议事

一边是身智实趋势丨“上得厅堂互动答疑 ,下得厂房干活出力”的亲历稳定币火热场景,机器人进厂打工、三重门酒店送餐 、机器赛场踢球,人跨前所未有地游走于日常生活之中 ,越具议事展示着接近人类的身智实趋势丨肢体能力;另一边 ,则是亲历“融资超过百亿 ,订单却不过百台”的三重门冰冷现实 ,一些实验室的机器捷报与商业订单之间  ,横亘着一条等待跨越的人跨鸿沟 。

今年以来  ,投资机构从观望到竞逐 ,从质疑撤退到挤破头也要上牌桌;行业格局从“人形机器人第一股”一枝独苗,演化到超20家机器人产业链企业走向IPO……这些变化与机器人的进化 ,一同写就“人形机器人量产元年”的真实注脚。

具身智能也来到了十字路口 :是挤进技术的窄门 ,还是击穿一个场景 ?是做一个定义未来的远见者,还是做第一个活下来的盈利者 ?

每个答案 ,都是创新者的求索与选择 。每一重门 ,是关卡 ,也是阶梯 ,跨越之后 ,终将成为机器人的“成人礼”。

北京银河通用机器人有限公司创始人兼首席技术官王鹤。受访者供图

数据:99%+1%,能实现“从0到10000”

银河通用王鹤  :让机器人甩掉遥控器,“睁开眼”干活

8月 ,全球首个城市级常态化运营的人形机器人示范区落地北京 。来自北京银河通用机器人有限公司的“银河太空舱”——由机器人经营的无人超市开张,具身智能真正走进大众日常生活。作为专注于研发人形机器人硬件和具身智能大模型的机器人企业,银河通用率先实现机器人在工业 、零售等场景批量化落地,其自研机器人Galbot在机器人格斗赛等赛事上也斩获佳绩。

每次有机器人火上热搜 ,评论区都有不少人强调一个现实 :目前,绝大多数机器人离开人工和遥控 ,还是会“原形毕露”。

而银河通用的机器人Galbot却有所不同 :它不仅无需“遥控”,还能自主干活。

眼下 ,具身智能的最大困境 ,既非硬件,也非模型,而在于数据 。不论是让机器人从动作智能转向认知智能 ,还是提升机器人的泛化性 、鲁棒性(指系统、算法或模型面对外部干扰 、输入异常或内部参数变化时维持稳定运行并输出预期结果的能力),关键在于数据的丰富性和准确性 。

而一个让难度再进阶的考验是 ,想要真正实现商业闭环 ,还要权衡数据获取的质量 、成本与效率 。

这是2025世界机器人大会上展示的一款拳击机器人(8月8日摄) 。新华社记者 谢晗 摄

记者:机器人发展的优先级,应侧重于能力的数据迁移展示 ,还是产业的切实赋能 ?在发展方向上 ,业内分歧多还是共识多?

王鹤 :今年以来 ,机器人企业在两种能力的选择上逐步有了区分度。一类以宇树科技为代表 ,其机器人擅长运动 、舞蹈  、拳击,特点是以腿足乃至全身控制为主,能展现出精彩的运动能力 。还有一类是以银河通用为代表的“干活派” ,依靠视觉反馈闭环 ,展现出在实际场景中干活的能力。“干活派”里,大致还可分为视觉算法+轨迹生成 ,与端到端VLA(即视觉-运动-动作一体化生成)两种技术路径 。

其实,不少人形机器人跳舞、跑步,并没有用到视觉传感器 。今年4月在北京举行的全球首个机器人半程马拉松上 ,不少观众注意到部分机器人“运动员”的不远处,有人用遥控器遥控机器人跑步 、转弯或加速 ,实际上机器人是“闭着眼”跑的。这样的技术现状跟机器人“生产力时代”还不是一回事,毕竟 ,没有活是闭着眼睛干的 。

今年 ,具身智能的场景落地在加快。以工业场景为例,银河通用的机器人已实现流水线搬运、分拣等环节的规模化应用。零售场景中  ,银河通用在北京海淀已成功落地10多家配备人形机器人的智慧药房 ,并计划年内在全国开设100家 。此外 ,银河通用的机器人已开始售卖零食、咖啡等商品 。

记者 :机器人完成酷炫的、令人眼前一亮的动作,许多情况下还是预编排的动作序列、人工遥控与视频剪辑共同作用的结果。为什么会出现“demo(演示视频)先行 、落地乏力” ?

王鹤:秀一段5分钟的demo,对机器人的可靠性 、稳定性要求并不高,不能证明它是能24小时工作的高可靠性产品。

demo与产品的差距主要来自两方面。一是泛化性不足,视频片段展示的多为精心布置的受控环境 ,如果换个物体 、环境甚至是光线 ,机器人就难以工作了,这显然还不是成熟的产品。二是硬件不可靠 ,如果机器人用上一会儿就需要人来维修 ,也显然还不能大规模投入使用。机器人的核心功能是替人去劳动 ,而不是成为花瓶一样的摆设。

记者:要想“拿掉机器人的遥控器”,核心在于什么?

王鹤:在于能够自主执行的模型“大脑”  ,且能实现跨场景泛化。今年初 ,备份恢复银河通用以10亿级合成大数据,端到端训练了一个VLA大模型 ,以视觉作为输入,模型实时输出当前机器人末端执行器应当如何移动,是一个闭环反馈模型 ,能够实现对不同场景中移动物体的抓取。6月,又推出了端到端导航大模型 ,使机器人能够拥有“听—看—懂—走”闭环运动能力。

另一个核心在于硬件的性能要够用、好用,精度要尽可能高。

记者:机器人实现泛化的关键在于什么 ?

王鹤 :数据 。可以说数据决定了机器人能力的下限。

我的观点是,现阶段合成数据可用于解决从0到1的问题,利用真实遥操采集的数据可解决从1到100的问题 ,从100到10000的问题则交由视频数据处理 ,让机器进行学习。具身智能所依靠的数据 ,99%可借助高质量的合成数据完成,只有在合成数据无法处理的情况下,才需要有针对性地采集使用1%的真实数据。

端到端具身大模型面临的困难,与自动驾驶所运用的端到端大模型有所不同 。自动驾驶所依靠的数据来源广泛 、数量庞大 ,且采集成本为负。目前 ,头部人形机器人厂商量产的机器人仅为千台级别 ,难以达到万台规模 。在现实中,让所有机器人都投入不同场景自主工作,以供真人采集上亿条数据 ,并不具有现实可行性 。

更为切实可行的解决方案是,先利用合成数据完善抓取 、移动、放置等功能,助力具身智能开拓市场,先完成那99% 。而生成高质量合成数据也存在一定门槛 ,需具备出色的图形学、物理仿真  、物理渲染 、自动动作合成管线等一系列完整的基础设施 ,还需要长期的核心技术积累。

记者 :什么能称为高质量的数据?该如何评价采集或仿真获得的数据够不够好 、够不够用?

王鹤 :数据的“质”比“量”重要 。如果数据千篇一律、同质性太高  ,那么它的价值就非常有限。高质量数据意味着它是多元的 ,能够体现柔性物体的操作  ,具备场景的泛化性。从机器学习的角度讲,训练数据能覆盖尽可能多元的测试数据的分布,机器人的学习就越高效 ,学成之后 ,它就能在陌生环境抓取一个此前没见过的东西。

记者:现有的模型架构够用吗 ?

王鹤:不能说完全成熟,但是够用了 。模型方面一直有进展,容灾演练但起决定性作用的是数据。数据足够的情况下,好的模型能学得更好,但数据不够时 ,好的模型也会变成“差生”。好比教一个3岁小孩学围棋,一上来就教高端技巧并不现实,得先让他知道什么是黑子白子。

记者:机器人商业落地,难在哪里 ?技术突破速度与场景适配深度之间的平衡,如何把握?

王鹤 :可批量复制的场景落地,将是具身智能的“生死分水岭”。在我看来,未来3年左右,能找到可以击穿的场景就能留在牌桌  ,找不到的将会出局 。未来1年 ,如果能实现千台到万台的机器人批量交付,行业价值才算得到验证 ,具身智能的泡沫也将被剥离。

事实上,如果能把抓取 、移动 、放置这类“简单”操作的泛化性问题彻底解决,已堪称具身智能发展过程中的一个里程碑 。这一技术的成熟足够打开数千亿元的市场,使机器人在零售、前置仓 、车厂分拣等多个场景中帮助人类完成繁重劳动。

记者:普林斯顿大学一门哲学课花了一整个学期讨论一个问题——先有语言,还是先有思维。这个讨论是关于人的,但从这个视角看,机器人的语言形成、认知形成 ,是否与人类相仿 ?大语言模型  、推理模型的发展 ,如何影响机器人的进化 ?

王鹤:不是所有的思维活动都基于语言 。拿猩猩举例 ,猩猩学习某个技能,靠的是另一只猩猩在它面前演示一遍 ,也就是说 ,技能是靠具身的学习来传播的。即使语言交流不发达,猩猩也一样具有视觉思维、空间思维、情感思维。

人类的思维是一个复杂的认知过程 ,人类的语言和思维在互动中塑造 。语言能够使思维在更大范围内传播,思维涉及心智层面对信息的处理,包括概念形成、问题解决 、决策制定与反思等,可以影响语言的演化与延伸 。所以说人类智能里 ,思维能力、语言能力  、操作能力都是使人类拥有地球上迄今为止最强智能的重要因素 。

记者 :ChatGPT横空出世时 ,有人说“语言即智能”;人形机器人热潮来袭 ,又有人说“身体即智能” 。也许在今天 ,双活中心只以人的维度评价智能已经不够了 。你如何定义“智能” ?人的智能、机器人的智能是否有一个交汇点?

王鹤:智能就是解决问题的能力。无论对于人类 、其他动物还是机器人 ,遇到问题后能给出解决办法的能力,就是智能 。面对一瓶饮料,人类利用语言沟通请有工具的人打开它 ,动物徒手打开它,机器人给出一个恰好的力来打开它——调用能力的方式不同,但这都是智能 。

自变量机器人创始人兼首席执行官王潜 。受访者供图

模型  :变形的拉链,能测出机器人的“智商”

自变量王潜:改造“精密的废物” ,须从“头”开始

2025世界机器人大会上,自变量机器人公司的轮式双臂机器人“小量”用一双巧手灵活制作香囊 ,“量子2号”仿人形机器人以7自由度手臂设计实现捏薯片不碎  、360°清洁等高难度操作。支撑其复杂灵巧操作的是自变量自研的机器人“大脑”——通用具身大模型WALL-A 。“一脑多用”的端到端技术,使机器人实现零样本泛化能力。

什么样的机器人 ,才不被称作“精密的废物” ?

蹒跚学步至今,人形机器人正在取得肉眼可见的进步。然而 ,真正制约它走进工厂 、融入家庭的并非四肢 ,而是能深刻理解物理世界、自主决策的“更强大脑”。没有大脑驱动的机器人 ,就好比失去灵魂的一块铁木,只能演示、无法实干 。

超越“花拳绣腿” ,机器人的再进化也许真的要从“头”开始  。

8月8日 ,工作人员在2025世界机器人大会上演示智能机器人。新华社记者 李欣 摄

记者:过去一年,人形机器人有了怎样的进化 ?

王潜 :去年夏天  ,还有很多人形机器人“动弹不了” ,到今年 ,多款机器人已能走路 、跑步乃至打拳、踢球 ,并逐步开始像人一样在广泛 、复杂 、真实的世界中自主移动、感知、理解  、决策并灵巧地操作物体,以完成多样化的任务 。驱动这些进化的 ,是算法的进一步成熟和收敛。

记者  :机器人的大脑虽然一直在进化,但技术路线还未“大一统”——有的用的是专用模型  ,有的用的是通用模型;有的采用分层模型 ,有的用上了端到端模型。哪种模型将是机器人大脑的“终局”?

王潜:提到大模型  ,普遍认知中的还是大语言模型、多模态模型 ,或者视觉语言大模型(VLM)+动作模块 。还有一种误解 ,异地多活认为具身智能的基础模型是这些模型的延伸 。

事实上 ,这些模型都属于虚拟世界的基础模型,并不是真正作用于物理世界的基础模型 。由于机器人涉及真实世界极为复杂的物理交互,处理的问题与虚拟的数字世界所要解决的问题截然不同 ,所以机器人真正需要的是物理世界中一个全新的基础模型。

如果对物理世界的某个局部做一个三维重建,看上去或许已达到1  :1复刻 ,但只要有一点点小毛刺那样的瑕疵 ,在现实中都会造成操作上更大更棘手的问题  ,也就是说0.1%的谬误也可能会带来10%-20%的差池  。

物理世界最核心的难点 ,是存在大量随机的不可预测事件 。哪怕只是一个用手推门的动作 ,也会因手的接触点位置、接触时长 、力的方向和大小、动摩擦因数等参数的差异 ,产生非常多的随机可能。

记者 :可以说 ,现阶段机器人的泛化能力普遍还不强 ,比如刚在跑道上学习过跑步 ,换成草地就跑不起来了 。而机器人能够进厂入户干活的前提是具备举一反三的能力,那么 ,如何能让机器人灵活应对复杂随机甚至是陌生的环境  ?

王潜:传统的解题思路类似于“搭积木”:视觉识别 、推理规划、动作生成各用一个模型 ,然后层层叠起……看似功能齐全 ,但信息传递时就像一排人在玩“传话游戏” ,不仅效率低下,而且前一层产生的微小差错容易在后续环节积累巨大误差 ,无法实现深层跨模态理解。

理想的“大脑” ,比如人脑 ,能够让看见、思考、行动一气呵成。因此真正的具身智能模型,应当由一个模型覆盖从信号输入到动作输出的完整过程。处理长序列任务时 ,机器人无需划分从看到想再到动的界限,而通过一个统一的神经网络  ,边想边做 ,还能像人一样举一反三 ,遇到没见过的情境也能灵活应对。

自变量是用一个通用具身智能模型来解决物理世界的复杂问题。具体来说 ,是把世界模型和端到端的通用模型放进同一个模型 ,也就是把视觉 、语言 、触觉、动作等所有模态信息塞进一个架构里统一处理 。这就区别于直接把自动驾驶的模型迁移过来,或给虚拟世界的视觉语言模型加上运动模块的方式 。

记者 :装上这样的大脑后 ,机器人能够解决哪些以分层模型或专用模型作为大脑的机器人解决不了的问题?

王潜:比如机器人要完成穿衣服这一指令 ,如果遇到衣服突然掉落、拉链变形这样的动态变化或陌生状况,传统分层模型需要重新编程 ,而自变量的端到端模型只需少量样本即可迁移学习。端到端模型能通过“实时感知决策闭环”马上调整策略,同城容灾而分层系统容易因模块间延迟出现“手足无措”。

再比如 ,我们让装载端到端模型的机器人“小量”削苹果,它会去厨房岛台寻找水果刀  ,我们又告诉它这是一个有小孩的家庭,然后看到它从更高处的抽屉开始找起——它在行动前进行了逻辑推理  :为防止水果刀被小孩翻到并使其受伤 ,水果刀会被放进更高的抽屉 。

装上通用大脑的机器人 ,还能拾取地面上的废纸、饮料瓶、塑料袋等各种形状不规则的垃圾 ,把沙发上随意堆叠的多件衣物放进脏衣篓。

记者:区分一个机器人大脑的强弱   ,与评价一个人智商的方法和维度相似吗?

王潜 :机器人大脑的强弱即模型的优劣,更出色的模型具备更强的泛化能力、推理能力 ,能处理更复杂的问题。就泛化能力来说,从易到难可分为光照位置的泛化  、环境背景的泛化、操作对象的泛化 、操作任务的泛化 。就任务复杂度来说 ,又分为操作动作的复杂度、推理及状态估计的复杂度 、被操作物体的复杂度等不同维度  。

记者:训练一个这样的大脑,关键在于算法还是数据 ?

王潜:在大约10年前的AI1.0时代 ,大家认为做AI就是做算法 。如今 ,决定性因素从算法变成了数据 。具身智能发展到深水区,核心竞争力就在于数据 。

从成本和效率的角度考虑 ,目前自变量是以真实数据为主、互联网数据为辅。自变量构建了全球最大的具身智能数据集 ,涵盖数万小时的机器人操作视频 、触觉反馈 、空间定位等多模态数据 。为加快数据积累,自变量自研了物理准确性最高的视频生成大模型来做数据增强 ,通过切换背景、环境 、接触物理过程等途径 ,将一条真实数据扩展为成百上千的数据 ,用来快速提升模型的泛化性 。我认为数据质量的重要程度高于数据数量,而提升数据质量的一大途径在于扩大数据的多元性 。

记者 :机器人是软硬件结合的工程  。现在是“强本体—弱大脑”的阶段,还是“强大脑—弱本体”的阶段 ?

王潜 :具身智能是显著的“软件定义硬件”的领域 ,硬件需按照机器人大脑的进化去定义、去适配 。

8月8日 ,观众在2025世界机器人大会上观看一款跳舞机器人。新华社记者 金立旺 摄

记者 :有人调侃 :除了跳舞、翻跟头,人形机器人还能干什么?在跑步、跳舞、踢球、格斗中习得的能力 ,与机器人实际落地所需的数据归档能力,有多大的匹配度 ?

王潜:匹配度不大 。通用的机器人能力分为运动、导航 、交互、操作四个维度,操作是关系到机器人进厂入户的最关键能力 。这也是为什么自动驾驶的模型无法直接迁移到机器人身上,因为自动驾驶的能力难点集中在导航与运动上,而机器人的最大难点在于复杂操作 。

但换个视角来看 ,人形机器人公司要发展,首先要活下来。如果机器人短期内还无法进化为实实在在的生产力,那么训练一些娱乐能力 、体育能力 ,也能给用户提供情绪价值。

加速进化(北京)机器人科技有限公司副总裁赵维晨 。受访者供图

落地 :敲开家门前,赛事为机器人找到了“用武之地”

加速进化赵维晨:形成商业闭环,才能打破“死循环”

8月落幕的世界人形机器人运动会上 ,一场全程无遥控的机器人足球比赛火了 。这支踢球的机器人队伍来自加速进化(北京)机器人科技有限公司 。这家成立于2023年的公司在今年7月举行的2025RoboCup巴西机器人足球世界杯上,帮助中国队(清华火神队)首次在成人组夺冠  ,打破了欧美国家在这一赛事上长达28年的垄断。

人形机器人在球场上激烈对抗 ,而商业世界看不见的竞赛或许更加残酷 。

技术突破与落地盈利之间,仿佛有一道“鸡生蛋还是蛋生鸡”的死循环 :没有订单,就无力迭代技术;技术不够成熟 ,就无法拿下订单。

破局的关键 ,不在于硬件或算法的单点胜出 ,而在于谁能率先在“技术突破速度”与“场景适配深度”的平衡中转动飞轮——哪怕从一场足球赛 、一个教育场景开始,只有让机器人真正“用起来” ,数据才会流动,成本才能打下去 ,技术才有机会来到实战场。

记者 :我们常说“生命在于运动”。现在人形机器人也有了运动会,运动也成为机器人进化的加速器。机器人整体性能与运动能力进化之间有怎样的关系?

赵维晨 :如果把机器人整体性能的提升看作一条向上波动的S形曲线,那么在最初的一段 ,运动能力与整体性能的曲线是最接近的。

对于“成年”以前的机器人  ,运动能力的突破可为数据收集与算法训练提供支撑 ,推动机器人感知、决策、规划能力的提升  ,反过来模型能力的进步也能倒逼运动控制的精度 、复杂度,推动运动能力再进化 。接下来,手脑眼配合 、跨场景迁移的泛化操作能力开始决定曲线的斜率。这就好比人类学会走路之后,真正拉开人与人差距的是更精细化的操作能力、交互能力。

3月14日 ,机器人在“村超”球场进行趣味足球赛 。新华社记者 杨文斌 摄

加速进化上场踢球赛的机器人“运动员”是不用遥控器 、全自主运动的冷热分离,这背后是“感知—决策—控制”的智能系统做支撑 。

感知算法如同眼睛和耳朵,实时捕捉足球轨迹与场上动态;运控算法则像小脑和神经系统 ,精确控制全身数百个关节的电机 ,完成奔跑、急停、转向 、射门等复杂动作;决策算法则像是真正的战术大脑,需要0.1秒内做出判断。足球赛事对抗激烈,机器人需要更强的算法能力来保持本体的平衡。端到端模型将视觉信号实时输入,再输出关节控制指令,二者配合默契才能实现“运动员”动作的连贯 、稳定与精准。

记者 :制约取得更先进性能的卡点,有人说在于“大脑”不聪明 ,有人说在于硬件不给力。是谁在给谁拖后腿 ,加速进化又主攻哪一方 ?

赵维晨 :更底层的操作系统,才是真正的护城河。当越来越多的开发者基于你的操作系统做开发,越来越多的机器人和硬件运行你的框架,机器人的软硬件能力才能快速迭代和迁移。操作系统的价值在于生态构建,其发展突破将是连接技术、商业、生态的关键一跃 。

记者 :能踢足球的机器人“运动员”身上,有多少能力能迁移到生活场景 ?

赵维晨 :足球场景是检验机器人的运动能力  、感知算法等关键技术的试金石 ,这些能力提升后都能迁移到未来的家庭陪伴、教育等更多场景 。

具体来说 ,运动控制层面,球场上训练的动态平衡、敏捷移动  、抗干扰能力 ,可迁移到家庭与工业场景的地面清理、避障等任务中;环境感知层面,球场上训练的识别场地 、脚、足球及预测运动轨迹,可迁移到工业场景的分拣、避障、巡检任务 ,以及部分生活场景中;任务规划层面 ,球场上训练的传球、射门等快速决策能力,迁移到工业场景中 ,就是可以处理物流仓储的流线设计、家庭服务的动线安排等 。

生活场景的任务会更加多样 、复杂、长程 、随机,机器人必须迈过从赛场到生活的挑战。

记者 :有人质疑,目前机器人的客户和用途过多集中在科研院校及展示场景 ,未形成理想的商业模式 ,难以支撑长期价值  。对此  ,你怎么看 ?存储网关

赵维晨 :从技术到场景 、再到商业的闭环,在技术成熟前是很难打通的 。机器人进入家庭以前,赛事为机器人找到了“用武之地” 。赛事如火如荼 ,在其中秀出实力的机器人厂商能拿到商业订单 ,从中小学到国内外高校 、研究机构甚至家庭都更有意愿购入机器人。只有拿到订单,打破规模化困境,才有可能反哺研发  ,保持进化速度 ,守住优势 。

记者:落地是悬在大多数厂商头上的一把剑  。在哪里落地 、能不能击穿场景,关系到厂商的生死存亡。不少厂商将工业场景作为率先落地的布局重点,加速进化却为何选择战略性放弃 ?

赵维晨 :先来算一笔经济账——短期内人形机器人单台成本在10万元以上,加上维修 ,成本还会更高,而工人年薪在5万-8万元 。更关键的是,工业场景需要的是可靠 、精准 、高效,如在汽车工厂,停产1分钟即损失数万元 ,那么因机器人时延而导致的损失也不容小觑 。

技术匹配度方面,现有的专机如机械臂、自动导向车(AGV)已实现分拣 、焊接等环节的高度自动化,如果盲目追求人形机器人入厂,好比让瑞士军刀切菜 。此外,产线故障往往属于长尾场景 ,机器人难以解决 ,或解决的成本包不住收益。

能力迁移层面 ,工业场景的数据是固定的 ,光照 、物体 、流程相对变化不大 ,属于“死数据”。而家庭场景的数据是“活”的,场景不断变化 ,迁移难度也很大 。

因此,我们视工业场景的“易落地”为短期诱惑,而将家庭机器人作为终极目标。机器人的真正价值在于通用 。正如智能手机替代功能手机 ,不是因为它能更好地接打电话,而是因为它创造了全新的交互方式与生态价值。

来源:新华每日电讯

最近关注

友情链接