中科视语 AnomalyMoE 入选 AAAI 2026:无语言依赖 + 跨模态适配,实现视觉异常检测 “一模型打通多领域”
视觉异常检测是工业质检、医疗影像分析、安防监控等领域的关键技术支撑,但长期以来受限于三大行业难题:一是传统模型高度依赖特定场景开发,仅能识别单一类型异常(如工业划痕检测模型无法适配医疗病灶识别),跨领域应用时性能大幅下降;二是部分尝试统一检测场景的方案,需依赖组件分割精度与语言大模型先验知识,不仅增加计算负担,还易因语言语义偏差影响检测准确性;三是难以同时兼顾“局部细微缺陷”(如零件表面纹理异常)与 “全局逻辑错误”(如设备装配顺序混乱),导致检测覆盖不全面。
AnomalyMoE 通过架构创新,将多模态、多领域的异常检测需求整合到单一模型中,有效降低企业多场景部署的技术成本与运维难度。
| 纯视觉无语言依赖方案:摒弃对语言大模型的依赖,仅通过视觉特征分析完成检测,既减少因语言语义偏差带来的误差,又显著降低计算开销—— 推理速度较同类统一检测方案(UniVAD、LogSAD)分别快 11.3 倍、33 倍,适配工业实时检测、医疗快速诊断等对时效要求高的场景。
l 双模块保障模型效能:专家动态平衡(ESB)模块通过正则化损失机制,避免训练过程中任务过度集中于少数专家,确保所有专家充分发挥作用;专家信息排斥(EIR)模块通过最小化不同专家输出特征的互信息,减少信息冗余,强化各专家的功能差异化,提升模型泛化能力。
基于上述方法,研究团队在横跨工业图像、工业三维、医疗影像、视频监控和逻辑异常等领域的八个具有挑战性的数据集上进行了广泛实验。实验结果表明,AnomalyMoE在一个统一模型的设定下,全面超越了现有的各个领域专用模型。此外,由于其纯视觉、无需语言大模型辅助的设计,AnomalyMoE在推理效率上具有显著优势,其推理速度比UniVAD快11.3倍,比LogSAD快33倍,这为其在实际工业场景中的部署提供了巨大潜力。
下图展示了AnomalyMoE在不同领域的实例上的异常检测结果。可以看出,无论是结构缺陷、组件缺失、医疗病灶、还是人行道中的异常车辆,AnomalyMoE 都能通过其分层专家网络精准检测异常。
从上至下分别为:(a) 输入图像, (b) 局部结构专家输出, (c) 全局逻辑专家输出, (d) 组件语义专家输出, (e) 最终聚合的异常检测结果
“AnomalyMoE的研发目标,是让视觉异常检测技术从‘场景定制’走向‘通用适配’。” 中科视语技术负责人表示,“目前我们已开源框架代码,希望通过技术开放推动行业协作,让通用异常检测技术更易落地到实际生产场景中。”
后续,中科视语将基于 AnomalyMoE 推进工业级解决方案开发,针对工业制造、智慧交通等领域的个性化需求提供适配服务,进一步降低通用视觉异常检测技术的应用门槛,助力行业智能化升级。