传统大语言模型(LLM)在具身任务中展现了强大的语义理解能力,但其庞大的参数规模难以在边缘设备上高效运行。轻量级模型虽解决了算力限制,却因缺乏复杂推理能力,如在 “抓取最大积木” 等需动态逻辑判断的任务中表现乏力。这一“推理能力瓶颈”已成为制约轻量级具身智能系统规模化应用的核心障碍。
图1: LightPlanner与主流任务规划方法的对比
图2: LightPlanner在决策推理时出现的“回溯、反思、纠错”行为
图3: LightPlanner框架,生成层次化深度推理与动态技能控制
| 层次化深度推理
执行反馈:通过历史记忆动态修正偏差,实现 “错误自愈”; 语义一致性:确保子动作与全局任务目标对齐; 参数有效性:实时计算抓取对象的空间位置等连续参数,提升动作精度。
为推动技术普惠,团队同步开源了:
开源量化模型:模型提供0.9到2.7g多种量化版本,凭借其卓越性能与实用价值,近期在Hugging Face平台热度飙升,单周下载总量已突破300次。
LightPlan-40K 数据集:首个具身决策深度推理数据集,覆盖动作序列长度为2-13的不同复杂度任务,总计包含4万个带有层次化深度推理的动作决策步骤,其中精选2.3万条高质量数据作为训练集。
表1: 不同复杂度的任务中的性能表现
我们基于LightPlan-40K数据集训练了LightPlanner模型。实验结果显示,在真实世界环境中的具身决策规划任务中,尽管LightPlanner的参数数量最少,仅为1.5B,但其任务成功率最高。在需要空间语义推理的任务中,其成功率比ReAct高出14.9%。此外,实验还展示了LightPlanner在边缘设备上的运行潜力,突显其在资源受限环境中的适用性。
图4: LightPlanner在Jetson Xavier Orin上的部署展示
| 工业自动化:赋能柔性制造升级
中科视语与某车企联合开发的汽车轮毂智能化检测与加工系统,模型展现出:
动态工艺优化:针对轮毂加工中的铣削、钻孔等工艺,模型通过上下文感知函数调用机制,实时生成最优加工路径。在铝合金轮毂精加工中,加工效率提升 35%,刀具损耗降低 40%。
复杂工况处理能力:在 500ms 内完成零件尺寸测量、装配路径规划等多步骤任务。
具身智能的核心是让机器人在资源受限的环境中自主决策。中科视语计划通过开源持续优化模型,通过开源创新推动 AI 从 “云端” 走向 “终端”,赋能智慧工业、智慧交通等领域的产业升级。