爱芯分享 | AX8850完成Qwen3-VL适配

发布者:爱芯元智
时间:2025-11-20
收藏
已收藏
  • 已适配 Qwen3-VL-2B/4B/8B 到 AX8850 开发板和 M.2 算力卡,可在本地完成图片内容理解和视频概要生成,可配合“树莓派5”使用;

  • 预编译示例已开源(GitHub & HuggingFace),附带简易 Gradio 演示界面,方便示例快速测试;

  • 尝试提供兼容 OpenAI API 的服务,降低已有云端大模型业务快速迁移到本地;

  • 最快响应延时<0.5 秒;

  • M.2 板卡功耗<8 w,支持被动散热,工业应用场景更可靠稳定。


模型

图片编码

TTFT

生成速度

Qwen3-VL-2B

130 ms

320 ms

14.1tokens/s

Qwen3-VL-4B

130 ms

670 ms

7.2tokens/s


模型

视频编码(8帧)

TTFT

生成速度

Qwen3-VL-2B

460 ms

840 ms

14.1tokens/s

Qwen3-VL-4B

460 ms

1880 ms

7.2tokens/s



背景


今年下半年,随着业务推广需求增加,我们的大模型适配工作也有了新方向:不再只追求前沿模型的快速适配,而是更聚焦为销售团队提供“能打”的实战“弹药”——也就是贴近客户刚需的、可快速落地的大模型解决方案。


因此,接下来的技术分享会更聚焦在基于我司边缘 AI 芯片(如AX8850)的实际应用落地,帮助客户实现从 Demo 到量产的跨越。


其中一个重点场景就是:视频事件分析


目前很多视频分析产品采用类似 CLIP 模型,已经能做到快速的单帧事件实时分析,但是对于时序性较高的场景支持并不太好。而通过多模态大语言模型,正好可以关联相邻帧的在时间轴上的语义特征信息,能够进一步对某些持续性的事件进行理解和输出。


最近 Qwen3-VL 开源了稠密小参数量的模型 Qwen3-VL-2B、Qwen3-VL-4B,从公开的 Benchmark 上看相比上一个版本 Qwen2.5-VL 系列有明显的“跑分”优势。我们已完成相关模型的适配,希望对关注端侧多模态大模型部署实现离线视频分析的开发者提供一种新的解题思路。


Qwen3-VL


Qwen3-VL 是阿里巴巴通义千问团队于 2025 年 9 月 24 日 发布的最新一代多模态视觉语言模型(Vision-Language Model, VLM),是 Qwen 系列中目前性能最强、能力最全面的开源视觉语言模型。其整体能力接近甚至在多项指标上超越 Gemini 2.5 Pro 和 GPT-5,并在 32 项核心能力测评中刷新开源模型纪录。


这一代模型实现了全方位的全面升级:更强的文本理解与生成能力、更深入的视觉感知与推理能力、更长的上下文长度、更出色的时空与视频动态理解能力,以及更强大的智能体交互能力。


Huggingface 链接

https://huggingface.co/Qwen/Qwen3-VL-2B-Instruct

Paper 链接:

https://huggingface.co/papers/2505.09388

在线 Demo:

https://huggingface.co/spaces/akhaliq/Qwen3-VL-2B-Instruct


主要特性:


  • 视觉智能体(Visual Agent):可操作 PC/手机图形用户界面(GUI)——识别界面元素、理解功能、调用工具并完成任务;

  • 视觉编程增强(Visual Coding Boost):可直接根据图像或视频生成 Draw.io 流程图、HTML/CSS/JS 代码;

  • 高级空间感知(Advanced Spatial Perception):能判断物体位置、视角与遮挡关系;提供更强的 2D 定位能力,并支持 3D 定位,为复杂空间推理和具身智能(embodied AI)奠定基础;

  • 长上下文与视频理解(Long Context & Video Understanding):原生支持 256K 上下文长度,可扩展至 1M;能够完整记忆并实现秒级索引,轻松处理整本书籍或数小时长的视频内容;

  • 增强的多模态推理(Enhanced Multimodal Reasoning):在 STEM/数学等领域表现卓越——擅长因果分析,能给出逻辑严谨、基于证据的回答;

  • 升级的视觉识别能力(Upgraded Visual Recognition):通过更广泛、更高品质的预训练,真正做到“万物皆可识”——涵盖名人、动漫角色、商品、地标、动植物等丰富类别;

  • 扩展的 OCR 能力(Expanded OCR):支持语言从 19 种提升至 32 种;在弱光、模糊、倾斜等复杂条件下依然稳健;对罕见字、古文字及专业术语识别更准确;同时显著提升了对长文档结构的解析能力;

  • 媲美纯文本大模型的文本理解能力(Text Understanding on par with pure LLMs):实现文本与视觉信息的无缝融合,达成无损、统一的理解体验。

图片


模型架构更新


  • Interleaved-MRoPE:通过鲁棒的位置嵌入,在时间、宽度和高度维度上实现全频段分配,从而增强长时程视频推理能力;

  • DeepStack:融合多层级 ViT 特征,以捕捉细粒度细节并强化图像与文本的对齐效果;

  • 文本–时间戳对齐:超越 T-RoPE,实现精确的、基于时间戳的事件定位,从而提升视频时序建模能力。


Benchmark


图片
图片


部署示例


为了更好的进行开发者社区技术推广,因此我们将借助国内外非常成熟的树莓派生态产品:树莓派 5+AXCL 算力卡的形态进行说明。基于 AX8850 的社区开发板同样也支持部署该实例,本文就不单独说明了。


默认本文的阅读者能自行解决访问 Huggingface 的办法。


硬件推荐


树莓派 5 + LLM8850-Card

图片


树莓派 5 + Maix4-HAT

图片


软件步骤


默认已按照硬件产品的指导文档完成了硬件及必要的软件驱动安装(例如 AXCL 驱动包)。预编译好的模型和示例已经上传到 huggingface(或者 hf-mirror)。


https://huggingface.co/AXERA-TECH/Qwen3-VL-2B-Instruct-GPTQ-Int4


如何将原始的模型转换成 axmodel 并部署,请参考我们的 GitHub 仓库。


https://github.com/AXERA-TECH/ax-llm/tree/ax-qwen3-vl


(友情提示:除非对该模型有 finetuning 需求的同学,否则我建议一开始不要浪费时间来学习该模型的转换或者示例代码的编译,因为过程比较复杂┓( ´∀` )┏)


安装依赖

请务必完整阅读 Readme


//代码开始



cd AXERA-TECH/Qwen3-VL-2B-Instruct-GPTQ-Int4pip install -r requirements.txt

//代码结束


运行示例

这里我们选择基于 Gradio WebGUI 的方案

运行 tokenizer 服务


//代码开始


python qwen3_tokenizer.py --port 12345 --host 0.0.0.0

//代码结束


运行兼容 openai api 的大模型推理服务


//代码开始





# for axcl, such as RaspberryPi5 + M.2 Card or x86 + M.2 Card./run_axcl_api.sh# for ax8850./run_ax_api.sh

//代码结束


运行 gradio 脚本


//代码开始


python gradio_demo.py

//代码结束


通过 web 浏览器访问


视频理解示例


图片