零的突破！中国首个基于世界模型的机器人任务执行系统（R-WMES）发布

发布者：成都人形机器人创新中心

时间：2025-09-09

已收藏

世界模型是目前人工智能与人形机器人技术竞争的最高地。全球人工智能与人形机器人的头部企业、研究机构都在投入大量资源对世界模型展开深入研究。世界模型有望实现人工智能、人形机器人不够聪明的最大瓶颈，是实现人形机器人“奇点时刻”的最重要抓手。

1.什么是世界模型

世界模型是一种真正接近人类大脑思考方式的系统框架，通过学习现实世界中的物理和因果规律，具备“类似条件反射的物理直觉”，可在内部模拟环境变化，基于当前环境状态推演未来状态，并评估规划出的行为所产生的后果。这一概念源于心理学中的“心智模型”。举个例子：当人们看到乌云密布时，就会自然地预判“马上就要下雨了”，因为人的大脑已经提前模拟了未来的天气变化。

2.世界模型VS大模型的区别

大模型(如 GPT、DeepSeek 等)依赖海量数据进行统计学习与模式匹配，其能力本质上基于相关性而非因果性，因而缺乏对物理世界的真实理解，也难以进行可解释的推理。所以广义来说，大模型是不具备推理能力的。图灵奖获得者杨立昆认为，现在的AI大模型智力水平仍然不如家养宠物。越来越多的机构和学者认为:如果希望 AI 具备真正的类人智能，不能仅依赖数据驱动的模式匹配，真正的智能应包含对物理规律的建模能力以及对环境变化的内部模拟机制。这就是世界模型。

成都人形机器人创新中心基于世界模型完成了全国首个机器人任务执行系统（R-WMES）。通过给到机器人一个我想达成的目标的图片，机器人自动判断现有的状态，并自主规划任务和执行任务，最终达到与目标图片相符合。

成都人形机器人创新中心做了两段演示。

演示一，给到机器人一个插有吸管的玻璃瓶的图片作为目标。机器人通过对现场环境的观察，看到了一个没有吸管的玻璃瓶。通过在隐空间规划，R-WMES 系统规划出完成任务的完整机器人动作：需要机器人抓取一根吸管插入玻璃瓶，以达到预设目标图片（带吸管的玻璃瓶）一致的效果。

演示二，给到机器人两个玻璃杯的图片作为目标，其中一个宽口玻璃杯有杯盖，一个窄口玻璃瓶没有盖子。机器人通过对现场环境的观察，看到了两个都没有杯盖的玻璃器皿。通过在隐空间规划，R-WMES 系统规划出完成任务的完整机器人动作：需要机器人抓取一个杯盖盖在宽口玻璃杯上，以达到预设目标图片（宽口玻璃杯有杯盖，窄口玻璃瓶没有盖子）一致的效果。

机器人世界模型由4大要素组成，他们是：任意指定目标（Any Specified Target）、隐空间规划（Latent Space Planning）、动态物理交互（Dynamic Physical Interaction）、视角变换（View Transformer）。

R-WMES 在本次成果中率先实现了在陌生环境中无监督训练（Unsupervised Training）的任务执行，展示了其任意指定目标（Any Specified Target）和隐空间规划能力（Latent Space Planning）。

R-WMES实现了中国在机器人世界模型上零的突破，为人形机器人更聪明、更接近人类思考推理方式打下了坚实的基础，使人形机器人产业爆发的“奇点时刻”更近一步！未来，成都人形机器人创新中心将坚持最前沿核心技术研发，持续引领中国人形机器人产业创新发展。