7项成果获得国际顶会认可,IROS 2025北京人形交出硬核答卷

发布者:北京人形机器人创新中心
时间:2025-10-31
收藏
已收藏

近日,全球机器人领域的殿堂级盛会——国际智能机器人与系统大会(IROS 2025)在杭州落下帷幕。作为全球机器人领域的顶级学术盛会,IROS自1988年创办以来,始终是学界与产业界精英交流前沿成果、碰撞创新思维的重要平台。今年,IROS的投稿与接收论文数量双双创下历史新高,竞争之激烈前所未有。


在这场国际学术大考中,北京人形机器人创新中心共计7篇论文入选IROS2025并受邀宣讲,论文收录数量处于行业前列,标志着公司核心研发能力赢得国际学术界的最高认可。北京人形机器人创新中心研究领域覆盖具身智能机器人本体、感知、学习、运控、操作、仿真等核心领域,每一项研究的背后,都直指产业应用中的真实痛点,助力打造“最能跑、最聪明、最好用”的具身智能机器人。



核心亮点






Mamba Policy:通过混合状态空间模型与注意力机制构建轻量化3D扩散策略,在显著减少参数量的同时保持高性能,经实验验证,Mamba策略在Adroit、Dexart和MetaWorld数据集上表现优异。


Distillation-PPO:两阶段强化学习框架,通过教师策略指导学生策略在部分可观测环境中学习,并融入强化学习特性,不仅在模拟环境中实现更高训练效率和稳定性,在现实应用中展现出更强的鲁棒性和泛化能力。


HACTS:双向实时同步的人机协同遥控系统,实现人类操作员既能无缝介入,又能收集动作修正数据用于后续学习,提升人机协作和数据收集的效率,显著提升仿生学习(IL)和强化学习(RL)任务的性能。


Humanoid Occupancy:标准的三阶段视觉系统架构,涵盖硬件设计、数据集构建与多模态融合网络,为人形机器人提供统一、高效且信息丰富的环境感知能力。


Manipulation Facing Threats:整合当前MLLMs的安全研究与物理世界操作任务的具体应用场景,提出“物理漏洞评估管道”,系统分析视觉-语言-动作模型在面对物理攻击时的安全风险。


SwitchVLA:具备执行感知能力的视觉-语言-动作框架,拥有强大的指令遵循能力、任务切换能力和泛化性能,在任务成功率和交互自然度方面均优于先前的VLA基线模型。


ArtVIP:高质量数字孪生关节物体及室内场景资产的综合性开源数据集,开创性地在资产中嵌入模块化交互行为,并提供像素级操作能力标注,并且已在模仿学习和强化学习实验中充分验证适用性。



IROS 2025 主旨报告


Mamba Policy:面向高效3D扩散策略的混合选择状态模型

图片


扩散模型因其高效学习分布的能力,在三维操作领域得到广泛应用,能够精准预测动作轨迹,但是这类模型通常依赖参数庞大的UNet骨干网络作为策略网络,需要大量资源进行部署。


本研究基于混合状态空间模型并结合注意力机制提出更轻量但更强效的Mamba策略方法,创新性地引入XMamba模块,有效整合输入信息与条件特征,并结合Mamba和注意力机制实现深度特征提取,相比原策略网络参数量减少80%以上,同时保持卓越性能。大量实验表明,Mamba策略在Adroit、Dexart和MetaWorld数据集上表现优异,不仅在性能上显著超越3D扩散策略(DP3),还能大幅降低GPU内存占用,显著降低了计算资源消耗,验证了Mamba策略在长期场景中的稳定性。

论文标题:Towards Efficient 3D Diffusion Policy with HybridSelective State Models

论文地址:https://arxiv.org/abs/2409.07163


Distillation-PPO:人形机器人感知运动两阶段强化学习框架

图片
图片


近年来,人形机器人凭借其强大的环境适应能力和类人特性,在学术界和工业界引发广泛关注。随着强化学习技术的快速发展,人形机器人行走控制领域已取得显著进展。然而,现有方法在应对复杂环境和不规则地形时仍面临挑战。


本文提出了一种创新的两阶段感知运动框架D-PPO,该框架结合了在完全可观测马尔可夫决策过程(MDP)中学习到的教师策略的优势,用于规范和监督学生策略;同时利用强化学习的特性,确保学生策略能够在POMDP中持续学习,从而提升模型的性能上限。实验结果表明,两阶段训练框架在模拟环境中实现了更高的训练效率和稳定性,同时在现实应用中展现出更强的鲁棒性和泛化能力。

论文标题:Distillation-PPO: A Novel Two-Stage Reinforcement LearningFramework for Humanoid Robot Perceptive Locomotion

论文地址:https://arxiv.org/abs/2503.08299


HACTS:用于机器人学习的人类-协作遥控系统,重新定义人机协作

图片
图片


为解决现有远程操作技术仅支持单向机器人控制,无法实现机器人状态与远程操控硬件的实时同步等问题,提升人机协作实现灵活操作执行能力。


本研究提出HACTS(人机协同远程操控系统),在机械臂与远程操控硬件之间建立双向实时联合同步机制,实现双向实时同步。这种类似自动驾驶汽车方向盘的反馈机制,使人类协同操作员既能无缝介入,又能收集动作修正数据用于后续学习。并且HACTS系统仅采用3D打印组件和低成本现成电机,既经济实惠又具备扩展性。实验表明,HACTS显著提升了仿生学习(IL)和强化学习(RL)任务的性能,增强了IL的恢复能力与数据效率,既能确保操作过程的平稳过渡和更可靠的干预效果,又能兼容多种类型的机器人,显著提升人机协作和数据收集的效率。

论文标题:HACTS: a Human-As-Copilot Teleoperation System  for Robot Learning

论文地址:https://arxiv.org/abs/2503.24070


IROS 2025 Workshop


Humanoid Occupancy:在类人机器人上实现通用多模态占用感知系统

环境感知是执行复杂任务的基础,而导航仍是类人机器人领域的核心难题。尽管自动驾驶、无人机等领域在环境感知导航等方面已取得显著进展,然而人形机器人独特的结构特征带来了运动学干扰、数据稀缺、表征能力有限等挑战限制其在真实环境中的有效部署。


本文提出 “人形机器人占用感知(Humanoid Occupancy)” 系统 ,采用标准的三阶段视觉系统架构,涵盖硬件设计、数据集构建与多模态融合网络,为类人机器人提供统一、高效且信息丰富的环境感知能力。针对人形机器人,提出创新性的传感器布局策略,有效减少结构干扰导致的感知盲区;构建首个专为类人机器人设计的全景占用数据集,为未来研究与应用提供宝贵基准;最终在 “具身天工(Tienkung)” 人形机器人平台上完成系统集成与测试,实验结果表明其在复杂环境中具有优异的环境感知与导航性能。


图片
图片

论文标题:Humanoid Occupancy: Enabling A Generalized Multimodal Occupancy Perception System on Humanoid Robots

论文地址:https://arxiv.org/abs/2507.20217


Manipulation Facing Threats:端到端视觉-语言-动作模型中的物理脆弱性评估

近年来,随着多模态大型语言模型(MLLMs)的快速发展,视觉语言动作模型(VLAMs)应运而生,旨在提升机器人操作任务在开放词汇场景下的性能表现。由于操作任务需要与物理世界直接交互,确保任务执行过程中的鲁棒性和安全性始终是关键挑战。


本文通过整合当前MLLMs的安全研究与物理世界操作任务的具体应用场景,对VLAMs在潜在物理威胁下的表现进行全面评估,提出“物理漏洞评估管道”(PVEP),可对所有现有及未见视觉语言模型(VLAM)的视觉模态物理安全进行评估,其中PEVP涵盖的物理威胁包括分布式外攻击、基于排版的视觉提示共计以及对抗性补丁攻击,通过对比攻击前后的性能波动,我们系统分析了VLAMs对不同物理威胁的响应规律,为通用化分析提供了理论依据。


图片

论文标题:Manipulation Facing Threats: Evaluating Physical Vulnerabilities in End-to-End Vision Language Action Models

论文地址:https://arxiv.org/abs/2409.13174


SwitchVLA:面向视觉-语言-动作模型的执行感知任务切换

尽管近期视觉-语言-动作(VLA)模型在多任务学习和指令遵循方面取得显著进展,但这些模型通常基于静态任务意图进行设计,无法在执行过程中实时响应新指令。


本文提出SwitchVLA,是统一且具备执行感知能力的框架,采用创新的训练范式和架构,无需依赖额外切换数据即可实现流畅且反应灵敏的任务切换。通过将专家演示划分为基于时间的接触阶段,策略能够推断任务进度并相应调整行为,随后训练多行为条件策略,通过条件轨迹建模在不同行为模式下生成灵活的动作片段。在模拟和真实机器人操作实验中,SwitchVLA展现出强大的指令遵循能力、流畅的任务切换能力和出色的泛化性能——在任务成功率和交互自然度方面均优于先前的VLA基线模型。


图片
图片

论文标题:SwitchVLA: Execution-Aware Task Switching for Vision-Language-Action Models

论文地址:https://arxiv.org/abs/2506.03574


ArtVIP:用于机器人学习的具有视觉真实感、模块化交互和物理逼真性的关节数字资产 

机器人学习日益依赖仿真技术来提升灵巧操作和精准交互等复杂能力,这需要高质量数字资产来弥合仿真与现实之间的鸿沟。然而,现有用于仿真的开源关节物体数据集存在视觉逼真度不足和物理保真度低的缺陷,导致其难以满足现实世界机器人任务训练需求。


为解决这些问题,本研究推出ArtVIP——包含高质量数字孪生关节物体及室内场景资产的综合性开源数据集。该数据集由遵循统一标准的专业3D建模师打造,通过精确的几何网格和高分辨率纹理确保视觉逼真度,同时通过精细调整的动态参数实现物理保真度。此外,该数据集开创性地在资产中嵌入模块化交互行为,并提供像素级操作能力标注。通过采用功能图可视化和光学运动捕捉技术,定量验证ArtVIP在视觉和物理逼真度方面的表现,其适用性已在模仿学习和强化学习实验中得到验证。


图片
图片

论文标题:ArtVIP: Articulated Digital Assets of Visual Realism, Modular Interaction, and Physical Fidelity for Robot Learning

论文地址:https://arxiv.org/abs/2506.04941


图片