易游体育:
人形机器人、具身机器人的需求基于什么价值?突破非结构化环境的稳定性和可靠性的方法是什么?如何增强可信度?除了降价和提高产量,还有哪些商业化的方法?要不要首先重视监管?
不久前,在“2025世界机器人大会”的论坛环节举办了一场圆桌——具身智能的商业化路径与未来市场发展的潜力,研究者、企业家、投资人分享了他们的思考。
圆桌主持人Alois C. Knoll教授来自于德国慕尼黑工业大学,他从事机器人研究有30 多年了,他对于机器人的定义、发展、工业应用甚至感知控制以及现在的人形机器人都有深入的研究或关注。
他的第一个问题是:人们在具身机器人和人形机器人方面有很多研发,这些研发需求主要基于什么价值?可从商业角度或者学术角度探讨。
中关村智友研究院院长王田苗:具身智能的影响是非常深刻和重要的,大致上可以分为两个方面。
一方面,传统机器人/ 泛化机器人与具身智能的共同特点是:在人类社会里最重要的是提升生产效率,或提供服务价值。这在历史上其实传统机器人已完成了。不同之处在于,当新产品推出或发生明显的变化时,传统的工业机器人甚至AGV 都需要工程师重新编程。因此工程师的经验能否沉淀下来?有些基本操作可否利用模型和算力来解决?从趋势上看是有可能的,这就诞生了“机器人+ 感知+ 学习+ 推理”来决策,这后半部分是传统机器人所不具备的。
另一方面,具身智能真正的价值在于能够学习、推理,然后模仿人类高效地在生产效率和服务价值上进行匹配。例如在服务场景里,诸如收拾餐桌,如果让机器人固定学习,要先感知,再进行推理,形成空间的轨迹,然后再操作。假如桌面上有剩菜、饭盒、垃圾袋等,如果让它清洁餐桌的时候,它可否自动知道把剩饭打到盒子里,有些放到塑料袋里,然后再扔到垃圾桶里?可见,如果利用现在的AI 来理解并生成感知推理步骤,是不是就大幅度的提升了服务价值?
如果我们把具身智能定义在匹配提高生产效率和服务价值的时候,实际上与机器人的形态没什么关系,而在于我们应该算一笔账:运营某项业务需要几台机器人?然后基于什么形态?我所定义的模型和数据的账要算得过来,是否合算。例如30 万或50万元,然后再来看机器人的操作的容错性,例如拿水杯,上下偏差一点没啥关系,跳个舞左右没关系。但是机器人在工业操作的时候,插孔、装配的容错性是很重要的。所以我们大家常常说是否合算?如果两年内合算,就应该加大推动应用。如果是五年,那现在就是一个概念验证项目。基于此,人形或者类人形有一定的概率会在商超的部分环境应用,或在工业特定环境下有所应用,而不会泛化到任何工厂,或养老、陪护儿童等机构,后者的泛化应用将是很漫长的。
蓝驰创投联合创始人曹巍以他的经历来具体说明上述观点。该公司在2015 年开始做机器人的投资时看了很多历史数据,评估了长期的价值和影响,看其整体上对于人类的影响。当人们谈到机器人的时候到底是在谈什么?实际上就是对于人类生存空间长期的影响:第一,我们期待的是有无限的生产能力,越能升级规模越好,这是长期角度所看到的对整个人类造福的场景。第二,人类文明再生产或者延续繁殖,所以是一个非常长期的、如何造福人类的概念。
短期来看,我们想要建立一种方法论,从简单的算法、场景开始,具身智能科技的进步是一步步发展起来的,不是某一天早上醒来,发现机器人就在家里帮忙做家务了,它会是一条非常长的发展路径。
所以当看投资机会的时候,要看机器人短期能为我们做什么?可以去看很具体的情形。
例如去看工厂,当前工厂80% 的工序已经自动化了,但是还有20% 的工序是劳动密集型的,这些产线工人的具体工作是什么?是否有机会替代?实际上,他们的工作往往很复杂,不是一个数据就能驱动的,有很大的弹性。
另一个情景是去零售店(例如销售汽车的),问他们人形机器人在这种情景合适吗?得到的答案是很欢迎,因为也许机器人用两三步就能够实现人们八步的工作。例如可以服务客人,做咖啡或茶并给客户端上去;另外是客户注册和介绍产品。可见在一些实际在做的工作中,人形机器人能真的帮助改善生产流程或者服务流程。所以人形机器人的远期目标是非常宏大的。但是作为现实的投资者,蓝驰创投看中的是它们能否做些实际的工作。
关于时间点/ 投资节奏,蓝驰创投是10 年的投资循环期。最大的挑战是找到正确的人——能理解现在技术的限制,所以能在可预见的未来进行发展,例如三五年的时间窗口,在产学研能够有的,还有供应链上有的能结合起来。总之,蓝驰创投找的机会是在三年内找出产品的点,然后推到市场上。
首先机器人需求还没有普遍化,还需要很长的时间,但是社会上非常需要具身机器人,因为现在全球普遍人力资源紧缺,很多工作人们不喜欢干,或者不安全,甚至是危险的,需要人形机器人或普通的自动化设备去做这些任务。现在新技术带来了机会,例如基于大模型的人形机器人能做一些非结构化的任务,应用于不同的场景。
例如半导体和生物技术行业还有很多工作需要人去做,因为是非结构的、不可预测。实际上,这个用人数量是非常庞大的,现在有8000 万人在工厂里做这类任务,但是慢慢的变少的人想要从事这些工作。所以这方面有很强的需求。
另一个点是工厂的环境往往是半制约的,例如在一个限制的环境里开车,这是做AI 训练很好的环境。之后会有更好的AI 训练能够做服务业甚至是居家服务,做更多的非结构化的不可预测的任务。
具身智能的应用方面总是有需求的,问题是技术如何开发、如何转变?要哪一些技术突破才能实现具身智的鲁棒性、可靠性,还可以用在非结构性环境中?
中关村智友研究院院长王田苗:现在具身智能应用中有两条路线。一条是理想主义者想重构一个世界模型,用“世界模型+通用人形+ 丰富的数据”能够泛化到很多场景,这是目前人们希望看到的。因为这一旦突破,就是一家平台公司,成为非常有延伸的公司。但是在现实中,可靠性、稳定性非常难做。
还有一条路线是从人们构建的世界模型去解构,落实到客户的现实物理模型,称之为智能硬件,但给智能画了一个框,而不是泛化。如果这个思路有了以后,突然感觉在不同的特定场景下,例如咖啡场景、扫地场景、手术场景甚至物流场景等,它的垂直类环境、数据包括模型甚至预控制忽然就可以突破了,能解决稳定性和可靠性问题。如果是基于此,对于垂直类的环境,我们所要求的,例如因经常会发生明显的变化而需要工程师进行编程,而且是高的附加价值的、高频的,如果这几个点作为具身智能应用点的时候,它的应用容易被客户接纳。相反,如果这个环境不变化,其实过去的机器人全都能胜任。
● 机器人的历史可以追溯至1950年代,第一代的机器人是可以在工厂内做一些自动化产线的基本工作的,现在大部分工作已由机器人做了,剩下的20% 为什么还没有被替代?就是因为非常复杂。
很多人称2025 年是具身智能商业化的元年。UniX AI公司也接到了客户不相同需求的问询。实际上,选择路径大多数来源于于公众端。去年UniX AI总结了一些主要的问题。
首先是容错。一些成功的AI 产品的过去十年往往从深度学习开始,一是面部识别,二是ChatGPT。最近大规模部署的产品有很高的容错率,想进门,扫脸没识别成功,没关系,再扫一遍就行了。ChatGPT 也是类似的,人类会自己改正答案,不会直接用你给的答案。所以容错是很重要的。
第二,具身智能是基于大规模多模态的模型制造出来的,语言模型给一个很大的范围做通用化,尤其是在感知方面。但缺点是任何数据驱动的模型,鲁棒性不够强。现在很多制造业是非常好的部署起点,因为很多简单的工作已经被替代了,现在需要既灵活又有通用性、容错性,包括环境和效率方面。
我们可以找一些应用场景,例如做到90% 就可以进厂了。可以模仿特斯拉的做法——特斯拉的自动化产线有自己的机器人,在自己的场景里应用。我们有成功的案例和失败的案例,都能够收集数据,以便机器人在实际情景中更好地应用。因为在纯粹的训练里,很难有现实世界失败案例的数据,因此就需要有容错空间。所以机器人进场可以产出更多的数据,不仅能提高数据的质量,还具有多样性。同样地,接下来用于居家等更复杂的任务就可以用起来了。
● 实际上,可靠性、鲁棒性、在结构化的环境中工作是最难的。人们经常忽略了一个课题,但是很重要的一点是远程控制,这个环境里机器人的成功率不可能百分百,必须设计到闭环。
闭环很重要。我们应该一些人至少作为安全员,就像在无人驾驶车辆上的安全员一样。所以远程操控是最重要的,但经常被忽视。
可持续性、鲁棒性方面,安全性是红线,例如力度和阻尼的控制,如果一旦掉线了可能就失控了,因此必须有高鲁棒性的机器人,必须有远程的操作,若发生失效要能够及时介入。
智平方创始人郭彦东认为有三个关键的因素:强大的算法,很好的数据战略,稳定可靠便宜的硬件。
①在算法方面,需要让算法自己能执行、足够强大,最好像人一样理解常理,能够迅速地去用。
②一年半前,智平方收集了不同来源的数据:互联网的数据、仿真和现实世界的数据,三种数据全部放在一起融合,以训练出理想的AI 系统。
第一阶段是冷启动,需要所有的三类数据。第二阶段是真实世界的学习阶段,可以学到很多,甚至学到在虚拟世界中不可想象的,因为真实世界的反馈很丰富,很多是不可能从网上获得的,例如压力、温度、笑容等。
③可靠的硬件。不需要非常昂贵的,而是需要可靠、便宜的硬件。可以把这些硬件放在真实世界里,而且越快部署越好,因为如果一个客户在两年内可以有足够的回报,就更容易把我们的硬件推介出去;相比之下,若需要超过5 年才可以获得回报率,只能视为在实验、验证期,成本会太高。所以硬件必须要有一致性,例如假设生产100 万台机器人,那么硬件这套逻辑就完全变了。
蓝驰创投联合创始人曹巍认为:具身智能和传统AI不同,例如一个实际的机器人是需要和真实世界互动以获得数据和反馈的,然后升级算法使之更加智能。这也是我们对具身智能的界定。在这样的一个过程中存在很多挑战。
第一层——硬件至关重要,要尽可能便宜,有鲁棒性、可靠性,并且长久来看有系统性的硬件,才能实现大规模量产。想要解决这些挑战,要让现在的机器人真正地生产,才会有一些鲁棒性的数据。算法来自数据。但是数据的感知还有很多挑战,例如现在的传感器能理解3D(三维),但是三维是一个崭新的算法,还处于早期。
第二层,模型需要更加精美。现在我们的模型还是基于模态的,不是特别精巧,还有各种缺陷,例如分布和偏移率很高,所以整一个完整的过程和我们在大语言模型里看到的还是有一些尴尬的地方,所以希望它更加精美,例如在算法编程过程中,很多研究想要用新的模型进行变革,这是另一个故事了。所以我们应该更多的创新。
第三层,我们应该一个坚实的模型,想要这些模型起效,必须有可监测的精细调节,并且将模型和现在的情形进行统一,这样才可以对齐。而这些对齐如何让这些工序变得尽量便宜、有效?这还处于研究阶段。
还有就是强化学习。20 年前就引入了,但还不够好,因为它的算法和基本的语言分析还是落后于流程,但创新的努力还在,希望有一个生成式的能力让这些工序更加有弹性,更加适应高维、复杂的操作。可以让机器人和现实世界互动,收集数据,促进智能化。
所以我们还有很多事情要做,但对于研究者是好事,对需要这些解决方案的应用工程师可能就不是很好。
主持人Alois C. Knoll教授引入了新话题:现在可以更聚焦一点,就是可信度。如何让人们相信系统,可以依靠它,愿意接受它,与它合作,让它工作,使它成为日常生活的一部分?
第一,需要制定可信度方面的标准。目前还没形成第三方的标准。但这是很重要的一环。例如对于工业机器人,有无故障时间,车辆无人驾驶方面也有第三方的标准,包括行业的、政府的。
第二,假如慢慢的出现事故,要厘清责任方。万一出现失误,由谁来负责?目前有四方:
④赔付方。这四方在过去的历史发展中,无论汽车、自行车、飞机等行业都非常巧妙地按照某种配合来处理问题。如果保守,发展得就慢;如果激进,这些责任方就会慢慢地提高客户使用它的信誉度。
当然最重要的还是要有有关标准,最好有分类,诸如陪护型的、工业操作类的、甚至是驾驶类的。
蓝驰创投联合创始人曹巍:如何增强可信度这样的一个问题很难回答,因为具身智能有一个身体,所以本身就涉及安全问题。汽车也是如此,很多人不敢开无人驾驶车,他们抱着怀疑的态度,因为社会上发生过相关事故,使人们很担心安全问题。对于机器人的可信度,是需要教育的问题,也是物理的问题,算法的问题。
● 教育。为什么召开这个会议?因为我们大家都知道有很多孩子和机器人玩儿,有踢球,这是一个很好的方式,让人们从小就和机器人互动,建立人机之间的信任,这也是一个教育的过程。
● 物理。从技术方面来看,物理身体主要是基于金属的,本身就有一定的危险性。机器人能跑,但因为很重,动能很大,会对人有危险。为此,可否考虑采用更多的塑料?
● 算法。透明度也很重要,因为人们不知道神经网络是怎样的,安全性必须在模型中处于基础的地位,必须是一条红线 透明度、模型和软件的重要性
其中一个解决办法是端对端的应用必须对人类有透明性,我们培训的时候必须在一个节点有输出,例如在最后的预测发生之前必须要给我们反馈你的想法,我们一定要得试点好这个关键节点,才能正确地收集数据或者是基于人的常识解释。当一个模型失败的时候,我们应该回顾它的中间数据,然后分析它为什么失败或没失败。就像学生考试一样,不只需要学生的答案正确,还希望学生能一步步地推理出正确的答案。
关于提高信任度,一个点是开源,让基础模型开源,因为基础模型是提高性能的关键部分。另一个点是基础大模型,因为大模型是最难预测的一部分,如果不开源,人们不了解这一个模型里正在发生啥。只有开源,任何一个人都能够正常的看到这些模型,知道里面发生了什么。这么说不仅是在宣传智平方1,还是为了提倡这种观念,只有开源,人们才能够相信你的产品。
主持人——德国慕尼黑工业大学 教授Alois C. Knoll发问道:如何商业化和大规模的生产?首先价格需要降下来。此外,还有一些其他的方法论,例如我们大家可以从造车业借鉴很多经验,可以让机器人变得便宜的同时提高产量。此外,还有无另外的特别好的点?
智平方创始人郭彦东称首先他不完全同意这样的一个问题。因为硬件是越来越便宜的,过去几百万买一个机器人,现在只需要一万块钱就能够获得一个最基本的人形机器人型号,这个成本正慢慢的变低。另一方面,AI的成本却慢慢的升高。我们一定要找一个方法有效地培训模型,例如GPU的集成,让培训慢慢的变快,还可以增量地培训——而不是每次都从零开始。重新做增量的培训并大规模的实现,这是一个有效使用GPU的方式。必须要格外注意的是,现在人类还只有少数的电力去培训AI模型,现在已发生了;同样,具身智能的世界也会如此。所以机器人的成本不仅是硬件,还有AI本身以及软件方面。
另外一个是数据,这也很昂贵。如果采集数据全靠一个企业自己,没人能付得起这笔昂贵的费用。因此把你的机器卖给消费者,让他们把数据反馈回来,就像无人驾驶车一样,这是很重要的降本方法之一,即开源你的数据。很多年前,人们开源了最大的人脸识别的数据,希望我们大家能够效仿,这样做才能够让整个机器人产业的成本降低。一旦有了这些非常聪明的基本模型,那么它的成本就能够更好的降低。这是最重要的想法。
中关村智友研究院院长王田苗想过一个问题:如果特斯拉在做无人驾驶的时候,可否把运营部分交给Hertz(赫兹租车)?王院长思考后认为不可能。另一件事是王院长团队最近在孵化低空经济物流,各个地方很欢迎他们去应用,但强调无人驾驶应该是你/ 提供者负责,包括其中的数据和风险控制是你/ 提供者负责。通过这两个事例,王院长认为有两个突破口可能会在未来三五年内加快具身智能的规模化应用:①从运营端切入谁来负责;②加强基础数据和算力。从而带动相应的通用载体平台和核心部件供应链。这是有可能是在未来三五年内,在一些大的应用赛道上能够体现出来的。
UniX AI创始人兼首席执行官杨丰瑜:在很复杂的环境里,重要的是减少培训的边际成本。我们应该非常好的终身学习的算法,能够让它慢慢演进。
蓝驰创投联合创始人曹巍指出,复杂的工作需要复杂机器人。实际上很多机器人价格非常贵,但不能做复杂的任务。所以机器人产业要给实际的产业带来价值,而不是仅埋头做研究。我们要找到真实的场景,最好是简单重复、可以扩展规模的工作/ 行业。所以把研究交给学者,企业家应该聚焦于商业化,扩大规模。
主持人Alois C. Knoll给各位嘉宾最后一个问题:应该是先重视创新,还是像欧洲一样首先重视监管?你希望监管吗?还是某些部门是需要监管的?有一些监管是否会限制我们的创新?
UniX AI 公司创始人兼首席执行官杨丰瑜指出:我们肯定需要监管,尤其是涉及隐私数据,就像智能手机等行业一样,我们应该有一些基本的常识性监管。但是在一些细节方面可能会不一样,例如想出口到欧洲,需要一些具体的要求。强调的一点是:对于机器人,需要本身是安全的、有鲁棒性和可靠性。这是我们从业者的任务,也是每位从业者期望做到的。
1 智平方公司自主研发了 全域全身具身大模型GOVLA ,并推出开源版本 FiS-VLA 。