在人工智能快速发展的今天,行业正见证着一场深刻的变革——从数字智能向具身智能的演进。2025年11月6日,聆动通用携手科大讯飞在第八届世界声博会暨2025科大讯飞1024全球开发者节科博展上联合发布了突破性的iFlyBot-VLM视觉语言基座大模型和iFlyBot-VLA视觉-语言-动作操作大模型,标志着在连接高维环境感知与底层机器人运动控制方面取得了重大突破,实现了从感知到行动的完整技术闭环。iFlyBot-VLM的核心创新在于将复杂的视觉和空间信息抽象为一种与具体机器人无关、可迁移的'操作语言',从而实现跨不同机器人平台的无缝感知-行动闭环协调。这一模型系统性地设计了实现具身智能所需的四大关键能力:1) 空间理解与空间度量推理,实现对环境中物体空间关系理解和相对位置估计;2) 交互式目标定位,提供了多种物体定位方式,包括2D目标检测、3D目标检测、物体空间指向以及可供性区域的检测;3) 抓取动作推理与控制参数生成,获取直接的抓取位姿和操作轨迹;4) 任务规划与技能拆解,可基于当前状态预测未来多步的原子能力,从而完成长程交互任务。如图1所示,iFlyBot-VLM模型不仅具备具身任务所需的空间物体指向、2D轨迹预测、可供性区域检测、3D物体定位、物体抓取姿态生成、空间物体计数、多物体空间关系推理、多视图匹配和任务规划等能力,它还保留了原始VLM模型的纯文本以及图像文本描述、图像文本识别等优秀的多模态能力,并在多个评估数据集上达到了最先进的(SOTA)性能。iFlyBot-VLA是由聆动通用联合科大讯飞研发的全栈自主可控的大规模视觉-语言-动作模型,其核心优化点包括:(1) 在大规模人类和机器人操作视频上训练的隐式动作模型,用于提取隐式动作表征;(2) 提出由视觉语言模型(VLM)和动作专家组成的双层表征框架;(3)采用混合训练策略将机器人轨迹数据与通用问答和空间问答数据集相结合,有效地增强了视觉语言模型(VLM)的 3D 感知和推理能力。具体而言,VLM 被训练预测为两种互补形式的动作:基于跨具身操作数据预训练的隐式动作模型所预测的隐式动作表征,它捕捉了隐含的高层动作意图;以及结构化离散动作标记,通过连续控制信号的频域变换获得,它编码了明确的低层次动态。这种双重监督方式让语言、视觉和动作的表示空间对齐,使VLM 能够直接为动作生成做出贡献。在LIBERO模拟器及真实场景部署中各任务的平均成功率显著领先当前主流开源方案。
图2:iFlyBot-VLA与主流VLA模型在LIBERO仿真平台上的对比分析
如图3所示,iFlyBot-VLM继承了当前主流VLM中稳健的三阶段'ViT-Projector-LLM'范式。其核心创新在于对ViT位置编码层的改进,采用双三次插值方法将学习到的位置嵌入从448维上采样到896维,形成了新的位置编码机制——维度扩展位置嵌入(DEPE)。这一创新方法为每个视觉标记提供了更精细的空间上下文向量,使模型能够在不增加序列长度的情况下捕获更复杂的位置信息和相对空间关系。
图3:iFlyBot-VLM架构
iFlyBot-VLA模型由语言Transformer骨干网络和动作专家网络组成,通过结合显式与隐式规划生成可执行的机器人动作。如图4所示,VLM组件在各层生成的键值(KV)缓存会传递至下游动作专家网络,以提供视觉语言上下文信息;但对应隐式规划的FAST动作token的KV缓存不会被动作专家使用,从而实现更高效、稳定的动作生成过程。
iFlyBot-VLM模型使用了约380万样本的混合数据源,涵盖精心设计的交互式定位数据、动作控制参数数据、任务规划数据和空间理解数据,如图5所示,数据涵盖数十种子类别。其中,交互式定位数据约215万样本;动作控制参数数据(由2D轨迹和物体抓取点组成)总计73.7万样本;空间理解数据总计57.8万样本;为防止模型遗忘,还添加了13万高质量通用VQA样本。图6展示了iFlyBot-VLM所使用的部分高质量数据示例,包括通用多模态理解、动作抽象与控制参数生成、空间理解、交互式目标定位和任务规划。
iFlyBot-VLA的训练数据主要由以下几部分组成:(1) 团队自建的、专注于空间理解的VQA数据集;(2) 来自公开可用OXE数据集的子集,涵盖多样化场景与机器人形态的操作任务;(3) 来自AgiBot的双臂机器人操作数据,即AgiBot-World数据集的子集;(4) 团队自采集的多种双臂操作任务数据。如图7所示,预训练所用的混合数据集由OXE、AgiBot-World、自采集操作数据和VQA数据的子集共同构成。左图展示了各数据集在混合数据中的比例分布,右图说明了预训练阶段VQA数据集的组成情况。现有视觉语言模型虽然能够执行高级推理和场景解释,但在机器人操作场景中的语义推理和场景理解仍面临挑战。团队特别构建了空间理解数据集,包括视觉对应数据、相对深度数据、物体计数数据、相机运动感知数据、物体空间关系和第三人称视角数据。这些数据能够帮助模型精准对齐视觉感知与物理空间规则,强化多模态语义与几何信息的融合推理能力,从而更稳健地理解机器人操作场景中的关键空间约束、物体交互逻辑及动态环境变化,为复杂操作任务的决策与执行提供可靠的场景认知支撑。如图8所示,展示了空间理解数据集中的部分示例,包括视觉对应、相对深度、计数、相机运动、空间关系和视角数据。在机器人操作任务中,除了空间理解能力外,精确的空间感知能力也至关重要。这涉及被操作物体的位置、被操作物体上的可操作区域、操作物体时末端执行器的姿态、物体可放置的位置以及物体操作过程中末端执行器的轨迹。基于此,团队构建了包括2D定位数据、2D指向数据、2D可供性数据、2D抓取姿态数据、2D轨迹数据和3D定位数据在内的全面空间感知数据集。这些数据能够帮助模型精准学习机器人操作任务中从2D 感知到 3D 映射的关键空间信息,细化对物体可操作属性、末端执行器姿态约束及动态操作轨迹的建模能力,从而强化机器人的操作精度,并提供合理的姿态决策依据和平滑的轨迹规划支持,大幅提升复杂场景下操作任务的准确性与稳健性。为了增强模型的反思能力,团队创建了轨迹负例数据。团队应用了六种扰动来使有效轨迹变得不合理:1)扰动前半段轨迹,使轨迹起点不在夹爪处;2)扰动后半段轨迹,使轨迹终点不在目标物体附近;3)扰动中间部分,使中间段穿过障碍物;4)文本与图像不匹配:图像中缺少要操作的物体;5)轨迹缺失:前半段轨迹不完整;6)轨迹缺失:后半段轨迹不完整。如图9所示,展现了团队的部分负例数据。
团队在空间感知、空间理解及任务规划三大核心维度的10 个基准测试中对模型进行了全面评估,如BLINK、Where2Place等典型基准,结果显示,模型在各任务上均取得了最优(SOTA)或接近最优的性能表现;同时,得益于数据集的多模态融合设计与模型的泛化性优化,该模型在保持顶尖任务专项能力的前提下,未损失跨场景、跨任务的通用语义理解与推理能力,实现了专项性能与通用能力的高效平衡。空间理解方面,iFlyBot-VLM在BLINK准确率达85.69%,空间感知方面,在Where2Place得分为70.3,在RefSpatial-bench上得分为51.5,均优于其他评估模型。如图10所示,在Where2Place-bench上的部分结果展示了模型的优异表现。如图11所示,在RefSpatial-bench上的部分结果进一步验证了模型的能力。如图12所示,展示了iFlyBot-VLM的轨迹生成能力。
首先,在公开的LIBERO评测集 上的实验结果验证了iFlyBot-VLA框架的优越性能,如图13所示,LIBERO基准包含四个任务套件,每个套件包括10个任务,每个任务提供10个演示样例。如图14所示,iFlyBot-VLA在LIBERO任务上达到了SOTA水平,相较现有的VLA模型π)、OpenVLA有着显著的优势。为了进一步研究显式和隐式规划的作用,团队在LIBERO模拟器中进行了消融研究。如图15所示,在该实验中,完整配置的iFlyBot-VLA模型在LIBERO模拟器中表现最佳。与去除离散动作token预测的版本(成功率87.8%)相比,性能提升了6%;与去除LAM token的版本(成功率90.3%)相比,提升了3.5%;而相较于同时移除离散动作token和LAM token预测的版本(成功率73%),整体提升高达20.8%。这些结果表明,iFlyBot-VLA中显式规划与隐式规划的协同作用在机器人操作任务中具有显著的正向影响,尤其在长程复杂任务中表现出更为突出的性能提升。
在今年的科博展上,团队展示了基于iFlyBot-VLM+VLA技术的实际机器人应用。现场演示包括复杂环境下的物体识别、精准抓取、多步骤任务执行等,充分展现了模型在真实物理世界中的强大能力。为验证模型的泛化能力,团队设计了多种分布外评估场景,包括:1)不同的桌面背景;2) 不同类型的容器作为放置目标;3) 未见过的物体;4)全新的场景环境,如办公室与工厂场景。在真实世界的通用抓取与放置实验中,团队评估了iFlyBot-VLA在面对未见物体、光照变化及全新场景时的性能表现。如图16所示,实验设置涵盖四种场景:基础设置、未见物体设置、光照变化设置以及未见场景设置。如图17所示,实验结果表明,iFlyBot-VLA在上述四种配置下分别取得了96.25%、96.04%、88.21%和93.57%的成功率。这一结果充分展示了模型在实际复杂环境中对视觉变化和场景迁移的强鲁棒性与泛化能力。针对长时序操作任务,团队构建了“包裹分拣”实验场景并采集相关数据。如图18所示,任务流程包括:① 抓取柔性包裹;② 判断包裹方向是否需翻转;③ 放置并推动包裹进入指定目标区域;④ 重复上述步骤直至所有包裹分拣完成。实验结果表明,在允许修正操作的评估标准下,iFlyBot-VLA的成功率较基线模型提升了7.5%,充分体现了其在长时序、多阶段任务中的规划与执行优势。iFlyBot-VLM(大脑)和iFlyBot-VLA(小脑)不仅是一个技术突破,更是团队迈向通用人工智能的重要一步。未来,团队将继续增强模型的空间理解和空间感知能力,提升大小脑各自性能的同时更加二者的协同配合能力。并进一步引入世界模型预测未来状态以及扩展模型的自反思能力和多模态输入输出能力,从而提升在长程任务上的执行成功率。最后,科博展期间特别推出优惠活动:“科博展期间购买LDT聆动通用具身智能采训推机器人的客户,将获赠一万条高质量真机数据。”
One more thing....
https://xuwenjie401.github.io/iFlyBot-VLA.github.io/
https://github.com/xuwenjie401/iFlyBot-VLA/blob/main/docs/iFlyBot_VLM.pdf
https://arxiv.org/abs/2511.01914