清程极智何万青博士受邀出席昇腾“淬火行动”北京专场,分享国产算力适配与高性能推理优化实践

发布者:清程极智
时间:2025-11-24
收藏
已收藏


近日,昇腾“淬火行动”——伙伴能力提升培训在北京圆满落幕。清程极智技术生态VP何万青博士受邀进行了主题分享。


图片

这场为期三天的深度技术赋能活动,汇聚了昇腾来自全国各地的行业伙伴及其AI技术开发者,共同开启了一场从硬件架构到大模型应用的软硬件技术探索之旅。

何万青博士进行了主题为“昇腾算力的适配、优化与服务”的技术分享,围绕基于昇腾算力的国产算力模型适配、量化推理与工程化优化路径展开介绍。



图片

在分享中,何博士首先介绍了国产算力的软件栈特点。他指出,国产算力在指令体系、访存结构、数据布局等方面与国际主流 GPU 存在一些差异,可以通过从模型解析、算子实现到调度策略进行针对性重构,通过软件优化更好发挥发挥硬件能力。

面向昇腾算力,清程极智在张量指令利用、内存布局重排、大模型并行策略等底层环节进行了系统优化,让推理链路更贴近昇腾硬件特性,这背后是 清程极智和清华大学联合开源的赤兔大模型推理引擎赤兔通过图执行机制理解模型结构,并在运行时将通用算子替换为针对昇腾深度定制的高性能实现;同时结合软浮点 FP8 / FP4 推理、注意力路径优化和动态混合并行,显著降低了显存占用并提升推理吞吐。

目前,赤兔已在昇腾平台跑通 GLM、DeepSeek、Qwen、Llama 等多款主流模型,并完成 GLM4.5 在910B上的 0Day 适配,让开发者能够在国产算力上更快完成模型接入与性能验证。

针对模型从实验环境走向生产环境的挑战,何博士进一步分享了 清程太极 Turnkey 智能计算软件栈 的实践经验。太极能够自动识别集群拓扑(NUMA、UB Switch 等),作为清程极智训推优化模块的交付底座,太极结合性能模板体系为推理与训练任务提供更合适的调度方式,并支持 Shell、API 与 Web 工作流的统一调用。基于太极对推理引擎 PD 分离和 POD自动伸缩的支持,太极可帮助合作伙伴在多机多卡环境下稳定跑起高通量推理任务,并带来可观的吞吐提升。



未来,清程极智将继续携手昇腾生态伙伴,围绕低精度推理、大规模并行策略、模型迁移与自动化部署等方向持续投入,与开发者社区共同建设更加高效的国产算力生态体系。