新华财经上海11月5日电(记者 王鹤) 11月5日,在第八届虹桥国际经济论坛-人形机器人创新发展合作分论坛上,宇树科技创始人兼CEO王兴兴对具身智能的“ChatGPT时刻”何时到来作出前瞻判断。他指出,当前人形机器人的核心发展仍取决于具身智能大模型的进展速度,并提出了实现突破需解决的模型与数据等三个关键问题。

图为:宇树科技创始人兼CEO王兴兴
在王兴兴看来,谁能在未来一两年内实现“在80%的陌生场景中完成80%任务”的突破,谁就是全球最领先的具身智能。
“目前人形机器人(包括具身智能)最关键的还是机器人大模型(具身智能模型)的进展速度,我觉得稍微有点慢了。”王兴兴表示,相对去年来说,今年深度强化学习的全身运控的进步非常明显,但在具身大模型,“端到端能干活“的技术进步稍微慢了一点,但总体而言其对人形机器人的前景较乐观。
王兴兴称,“具身机器人目前的发展阶段类似于ChatGPT发布前的1-3年左右,大家已经发现了方向,但还没有做成可以突破临界点的事情。”
具身智能ChatGPT会是什么样子的?
对于真正的具身智能的ChatGPT时刻会是什么样子,王兴兴提出了自己的构想。“某一天我们公司或者全球的某一个公司、实验室能达到下面这个效果——在80%的陌生的生活场景中,如果给机器人发送语音或文字,机器人大概能完成80%左右的任务。”
王兴兴畅想道,如果到明年这个时候,一台人形机器人能够在一个从未见过的真实场景中,仅凭自然语言指令就完成任务——例如“帮我拿杯水”或“请把这份资料交给那位记者朋友”,且无需任何预训练或预设环境,就能自主识别、规划与执行,这样的系统若能实现约80%的成功率,将是一次突破性的技术飞跃。
他认为,这一能力的实现将标志着人形机器人领域迎来类似于人工智能的“ChatGPT时刻”,是极其重要的里程碑目标。
智能体机器人当下及未来最关键的挑战:是模型问题还是数据问题?
王兴兴称,目前智能体机器人在模型和数据两个方法都存在提升空间。 在模型层面,尽管业界已对多种结构进行了尝试,但现有模型的泛化能力仍显不足,亟需在架构设计上进行更具突破性的创新。 在数据层面,虽然人们普遍期望获得更高质量、更大规模的数据集,但现实中数据采集难度大、质量评估标准尚不完善,成为制约发展的关键因素。
“大家希望数据更质量更好、有更大规模数据,但目前对数据的采集,包括数据质量的评判还非常困难。”王兴兴表示,模型与数据两者相辅相成,需要持续投入时间与研究精力,而非盲目追求“数据量越多越好”或“模型越大越强”。他强调,真正的突破在于对模型结构创新、数据采集方式以及数据质量提升的深入思考与系统改进——这也是当下全球人工智能与智能体研究共同面临的核心难题。
当前主流的人形机器人智能体训练路径主要有两种:VLA+RL(视觉-语言-动作结合的强化学习)和基于视频生成的世界模型(Video-generated World Model)。两种方式既可在仿真环境中训练,也可在真实环境中进行,但目前普遍面临泛化能力不足的挑战。
王兴兴解释称,从实验结果来看,在特定产品或限定场景下,模型表现良好——若训练数据质量高、数量充足(数百至上千条),成功率几乎可达 100%。然而,一旦更换操作物体或改变环境场景,成功率便骤降至 70% 甚至更低;若模型同时承担几十种任务,性能反而下降。这表明,当前智能体模型的泛化能力仍有待显著提升。
以宇树的研究为例,该公司去年尝试开发基于视频生成世界模型的机器人系统,并已将模型结构、训练算法、部署方案及数据集完全开源。该模型思路相对直观:机器人通过采集自身动作与环境反馈,生成动态视频,并据此“预想”未来应如何行动,再据此控制行为。理论上,整个闭环可自洽运行。
然而,这一方向仍存在关键难题——视频生成与机器人控制之间的对齐问题。当前视频生成模型的生成能力极强,可以根据指令生成高质量场景(如“一个人形机器人在家中做家务”),但这些视频难以与真实机器人的动作控制精确对应。换言之,视频模型能“生成世界”,却无法让机器人在现实世界中按此逻辑精准行动。两种模态(视觉生成与物理执行)的对齐误差较大,成为视频生成世界模型实现实际落地的最大技术瓶颈。
编辑:葛佳明
声明:新华财经(中国金融信息网)为新华社承建的国家金融信息平台。任何情况下,本平台所发布的信息均不构成投资建议。如有问题,请联系客服:400-6123115
去新华财经APP看全文