SAGE - 利用隐马尔可夫决策过程解决机器人多阶段序列任务的挑战
近日,北航-享刻时空大数据与具身智能联合实验室合作的机器人多阶段操作策略研究工作 SAGE: State-Aware Guided End-to-End Policy for Multi-Stage Sequential Tasks via Hidden Markov Decision Process(SAGE:基于隐马尔可夫决策过程的状态感知引导端到端多阶段序列任务策略)发布。 机器人按序按按钮任务:场景视觉输入相同而需要执行的动作不同 SAGE:基于隐马尔可夫决策过程的状态感知引导端到端多阶段序列任务策略 SAGE: State-Aware Guided End-to-End Policy for Multi-Stage Sequential Tasks via Hidden Markov Decision Process 作者:武彬煦²³、张腾飞²、杨晨²³、温佳昊²³、李昊成²、马静天³、陈震¹²、王静远³(¹清华大学、²享刻智能、³北京航空航天大学) 通讯作者:陈震、王静远 概述:多阶段序列(Multi-Stage Sequential, MSS)机器人操作任务在现实世界中广泛存在,例如工业装配、家庭服务等。这类任务的核心挑战之一是状态模糊性(State Ambiguity):即机器人在不同任务阶段观察到非常相似甚至完全相同的视觉场景,但需要根据当前所处的潜在阶段执行不同的动作。例如,在按序(黄-粉-蓝)按按钮的任务中,每次机器人抬手观察时,看到的都是三个按钮的全局画面,但它必须知道“上一步已经按了哪个”,才能决定“下一步该按哪个”。 现有的方法主要分为两类,但都存在局限性。 (1) 基于记忆的方法(如RNN)试图通过分析历史观测(即过去的图像帧序列)来消除歧义 。但这种方法存在局限:在处理长序列时,模型需要分析大量视觉信息,其中许多可能是对当前决策无用的冗余信息,这不仅带来了巨大的计算成本,而且难以确定需要保留多长的历史记录才能有效决策。 (2) 分层方法将任务分解为高层规划和底层执行,但高层控制器通常需要大量的人工设计,缺乏灵活性和通用性。 为解决上述挑战,本文提出了SAGE (State-Aware Guided End-to-End Policy),一个基于状态感知的引导式端到端模仿学习框架。该方法创新性地将多阶段序列任务建模为隐马尔可夫决策过程(Hidden Markov Decision Process, HMDP),显式地将任务的“阶段”作为一个隐藏状态进行推断,从而解决状态模糊性问题。SAGE的核心思想是,让模型不仅“看”到当前的场景,更能“理解”当前处于哪个任务阶段,从而做出正确的决策。本文的主要贡献包括: 1. 创新的HMDP建模:首次将存在状态模糊性的多阶段序列任务形式化为隐马尔可夫决策过程,为解决此类问题提供了统一且有力的理论框架。 2. 端到端的网络架构:通过一个状态转移网络来推断隐藏的任务阶段,并设计了一个状态感知的动作策略网络,将视觉观测和推断出的阶段信息共同作为决策依据,实现了从视觉输入到动作输出的端到端学习。 3. 高效的半自动标注流程:为了给模型训练提供“阶段”标签,本文提出了一套结合主动学习(Active Learning)和软标签插值(Soft Label Interpolation)的半自动标注流程。该方法能智能地挑选出信息量最大的样本进行人工标注,再自动标注其余数据,极大地降低了数据标注成本。实验证明,仅需约13%的人工标注量,SAGE就能达到100%的任务成功率,性能媲美完全人工监督。 SAGE框架流程图 本文在“分拣物块”、“按顺序按按钮”、“擦盘子”三个充满状态模糊性的真实机器人任务上进行了大量实验。结果表明,在标准评估和包含干扰的复杂场景下,SAGE均取得了100%的任务成功率,显著优于当前主流的基线方法。在长达50步的连续任务压力测试中,SAGE也展现出极高的稳定性和鲁棒性。