DLInfer助力沐曦股份曦云C500推理落地MinerU多模态场景,实现性能加速60%!
联手沐曦股份实现数据生成场景的实际落地, Graph 模式下性能加速超 60% 为了验证 DLInfer 在真实场景中的效能,科研团队与沐曦股份展开了深度合作,通过接入通用推理框架与赋能垂类应用两个维度,全面展示了 DLInfer 助力沐曦股份芯片释放潜能的实战成果。其中,Dlinfer + LMDeploy 推理部署方案表现突出。不仅能有效降低端到端延迟、提升吞吐性能,更凭借其出色的加速效果,为其成为国产主流硬件在推理场景下的重要选择提供了有力支撑。 Graph 模式下精确的算子匹配加速推理效率 DLInfer 通过分层设计,在 Eager 模式下直接调用各厂商优化后的融合算子,在 Graph 模式下则对接硬件厂商的图编译引擎,获取更加精确匹配,实现端到端性能优化。其接口设计不仅将框架与硬件适配工程解耦,降低多平台开发成本,还能在 Graph 模式下通过精确的算子匹配提升推理效率。 Graph 模式是 DLInfer 实现性能跃迁的核心,它融合了两种关键的优化路径: 一方面全面支持类似 CUDA Graph 的“执行流捕获”技术,支持将整个计算流程固化,消除 CPU 调度开销,实现近乎零开销的执行;对于那些算子本身已经足够优化但 CPU 与 GPU 交互成为主要性能瓶颈的场景,这种技术能带来立竿见影的加速效果。 另一方面对于拥有丰富图编译生态的硬件平台,DLInfer 将 Attention、MoE 等关键子图整体映射到硬件厂商提供的图优化器上,这种做法能最大化利用硬件特性,实现深度的算子融合与内存优化。 DLInfer 架构图 沐曦股份算子优化核心突破 沐曦股份算子库提供的针对性适配优化,进一步补全了 DLInfer 在硬件底层的性能调用能力,让芯片算力与软件框架的适配更精准、资源损耗更少。 在访存延迟掩盖方面,沐曦股份通过多重技术组合实现高效数据流转。采用64/128bit 宽位显存 load 指令提升带宽利用率,针对非 2 的幂次对齐数据定制loop展开逻辑,借助运行时mask实现显存数据高效加载。通过预发射shared memory读取指令、采用swizzle布局消除bank冲突,搭配多stage等机制让计算指令精准掩盖访存延迟,全方位突破访存瓶颈。 生态兼容层面,沐曦股份以降低用户迁移成本为核心,实现全方位适配。全面兼容 cuBlas 和 cuBlasLt 接口,完美适配官方 FlashAttention 与 FlashMLA,新增 Attention mask实现、KV cache 反量化融合支持、多 page size 选项等实用特性,让用户无需重构代码即可无缝衔接现有生态,加速业务落地进程。 无缝接入 LMDeploy, 释放通用推理框架潜力 LMDeploy是业界领先的大模型推理引擎,为开发者提供了灵活高效的部署方案。DLInfer作为桥梁,让异构芯片能够无缝融入此生态,用户无需修改业务代码即可享受硬件性能红利。 一键切换的集成方式,实现零成本适配。DLInfer 作为“翻译官”和“优化器”,LMDeploy 与沐曦股份的对接变得非常简单。用户只需在 LMDeploy 的配置中指定后端为沐曦股份(--device maca),即可完成整个部署链路的切换。上层应用(LMDeploy)依然调用 DLInfer API,便可在底层将计算任务精准地分发到沐曦股份硬件上。 通用模型推理吞吐可实现 30%的提升。科研团队在 C500 上对多个主流大模型进行了性能测试。测试结果表明,相较于算子模式,通过 DLInfer + LMDeploy 的部署方案,端到端延迟显著降低,模型推理吞吐量提升了 30%以上,为高并发推理服务提供了坚实的性能保障。 加速 MinerU 文档处理, 彰显垂类模型应用价值 如果说接入 LMDeploy 证明了 DLInfer 方案的“广度”,那么赋能类似 MinerU 的复杂垂类应用,则彰显了其“深度”和解决特定领域难题的能力。MinerU 是上海AI实验室研发的一款开源的一站式文档解析工具,目前GitHub星标数近50K,在文档解析领域有着重要的影响力,其核心任务是将 PDF 等复杂文档转换为结构化的 Markdown,这是一个典型的多模态数据生成场景。DLInfer 通过 Mineru-LMDeploy-DLInfer 的技术路线,将 MinerU 无缝运行在了曦云 C500 上,并实现 Graph 模式性能相比 Eager 模式提升了 60%。通过双方技术优势的互补,实现了此次复杂垂类场景的性能加速突破,为推理任务的高效运行再添一重保障。 '芯片 + DLInfer + LMDepLoy + MinerU' 技术路线 多元硬件接入推理框架的通用方案 DLInfer 对上承接大模型推理框架,对下通过一套接口灵活支持各厂商不同粒度的融合算子与厂商自研图引擎,将对接框架与对接厂商融合算子在适配工程中有效解耦。在 DLInfer 中,根据主流大模型推理框架与主流硬件厂商的融合算子粒度,定义了大模型推理的融合算子接口。同时,DLInfer 兼顾了 LLM(大语言模型)与 VLM(视觉语言模型)两类主流多模态模型的推理需求,为国产硬件生态融入大模型技术栈提供了统一的中间层支持。 DLInfer 的核心架构可以概括为“统一前端 + 可插拔后端”的模式: 统一前端:DLInfer 的顶层算子接口为上层应用提供了一套与硬件无关的算子加载与执行接口。开发者无需关心底层硬件,只需聚焦于业务逻辑本身。 可插拔后端: 每个硬件平台都是一个独立的“后端”模块,而每个后端都负责实现两套执行路径,即适合模型调试和新算子的快速验证 Eager 模式和 最大化利用硬件特性 Graph 模式。在 DLInfer 的 vendor目录下,可以清晰地看到这种解耦设计。 结语 DeepLink 聚焦多元芯片生态建设,深耕编译优化、异构通信等核心技术,全力推进国产 AI 工具链研发与安全高效的方案落地。针对国产芯片特性优化算子性能、构建统一计算通信中间表达,打造兼容主流框架的开发环境,降低开发者国产芯片迁移门槛,不断提高国产芯片的易用性和端到端性能。同时通过构建多场景支撑平台和垂域标杆应用,为科研和产业界提供更为强大的支持,推动 AI 全行业自主可控、可持续发展。 关于沐曦股份 沐曦股份致力于自主研发全栈高性能GPU芯片及计算平台,为智算、通用计算、云渲染等前沿领域提供高能效、高通用性的算力支撑,助力数字经济发展。