CARP实现最高 10× 推理加速、高达 10% 成功率提升!

发布者:西湖机器人
时间:2025-08-19
收藏
已收藏


ICCV 2025

International Conference on Computer VisionI (ICCV) 中文全称国际计算机视觉大会,这个会议是由IEEE主办的全球最高级别学术会议,每两年在世界范围内召开一次,在业内具有极高的评价。ICCV 2025将于2025年10月19日-10月23日在美国夏威夷举办,ICCV 2025 共有11239份投稿,录用2698篇,录取率为24%。录用论文简要介绍如下:

Title: CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction



背景介绍

从示范中进行策略学习是将观测映射为动作的监督学习任务,已在多种机器人任务中展现出良好效果。引入视觉领域的生成模型进一步提升了机器人在复杂操作中的精度。自回归模型结构简单、效率高,但难以建模长时依赖和全局一致性,限制了其性能。扩散模型虽能捕捉多模态分布、提升精度,但其多步生成过程计算开销大,难以满足实时性和灵活性需求,尤其在资源受限或动态环境中表现受限。


技术介绍

自回归建模(AM)和扩散建模(DM)在视觉运动策略学习中各具优势:AM 推理高效、部署灵活,DM 则凭借多模态建模带来更高精度。然而,两者在实际应用中难以兼顾。为此,我们提出一种新颖的策略生成框架 CARP,通过多尺度的由粗到细预测方式生成整段动作序列,融合了 AM 的效率与 DM 的性能优势。CARP 核心包括两项关键设计:一是提出层次化动作表示方法,兼顾全局结构建模与时间局部性,缓解 AM 的局限性;二是在潜空间中逐步细化动作,引入放松马尔可夫假设与交叉熵损失,实现接近 DM 的精度,同时保持高效推理能力。在多种仿真和真实操作任务中,CARP 实现最高 10× 推理加速、高达 10% 成功率提升,展现出一种高效、灵活且性能优越的策略学习新范式。



成果总结

本研究首次将类VAR架构引入机器人领域,为未来基于该架构的进—步创新奠定了基础。我们期望通过本研究,能够激发更多关于下—代策略学习的探索,特别是通过利用GPT风格的自回归模型,从更加统—的视角推动动作生成策略的发展。



论文地址:

https://arxiv.org/abs/2412.06782

代码地址:

https://github.com/ZhefeiGong/carp