开普云“大模型推理优化方案”入选中国信通院“2025开源+典型案例”

发布者：开普云

时间：2025-10-29

已收藏

10月28日，中国通信标准化协会主办的“2025 OSCAR 开源产业大会”在北京举行。会上，中国信通院发布2025年度 OSCAR“开源+”典型案例评选结果，开普云凭借“国产算力生态下的大模型推理优化与系统协同实践”项目成功入选。

本次评选汇聚了众多国内顶尖科技企业，竞争异常激烈。经过严格筛选，最终仅有六家优秀案例成功入选，除开普云外，还包括火山引擎的Coze、中兴通讯的Co-Sight超级智能体、阿里云的MSE与Apache RocketMQ for AI全链路算法解决方案等行业知名案例。能够在此高水平竞技中跻身六强，彰显了开普云在大模型推理优化领域的前瞻洞察与系统突破。

一、洞悉系统瓶颈，推动全栈优化

过去两年间，大模型的浪潮推动了整个AI产业的系统性革新。模型越来越大，应用越来越广，然而，一个现实的问题也越来越突出：大模型推理太贵、太慢、太不兼容。尤其是在国产算力平台上，生态不成熟、优化链路不完善、框架层面适配不足，让很多企业在大模型落地阶段“寸步难行”。

开普云在长期实践中发现，大模型在国产平台上的性能问题不是单一层面的，而是跨越了模型、系统和硬件三个层次：

模型层的优化与硬件解耦，无法充分利用硬件特性, 致使系统调度与精度损耗大于收益；

系统层调度粗糙，长上下文推理经常被显存掐断频繁卸载, 高并发环境出现气泡；

硬件层缺少适配算子，导致算力利用率远低于理论峰值。

基于此，开普云调整目标，不再局限于优化某个组件，而是贯通整个栈的“正交优化”，发起了“国产算力生态下的大模型推理优化与系统协同实践”项目，希望通过一套软硬件协同的完整路径，让国产算力生态真正具备高效运行大模型的能力，让国产芯片真正“跑起来”。

二、三大创新路径，构建高效推理体系

开普云整体方案可以概括为三个关键词：低精度、分级缓存、自动算子生成。

框架/模型层：让推理更轻、更聪明。开普云基于推理引擎层面实现了FP8与FP4的混合精度推理，并结合SmoothQuant等算法，在保持精度的同时显著降低了计算与存储成本。

同时，加入上下文感知的动态批处理机制。它能根据任务长度与硬件负载情况自动调整批大小，在吞吐与延迟之间找到最优平衡点。这让模型在面对复杂的实时请求时表现得更智能、更高效。

系统层：突破长上下文的存储瓶颈。为了解决显存不足的问题，开普云提出了显存—内存—SSD的三层分级KVCache调度机制。系统会动态预测缓存热度，把不常用的数据迁移到低速介质中，从而在不牺牲性能的前提下，显著扩大上下文长度。

在测试中，128Ktokens的超长上下文推理任务中，吞吐性能提升超过1.5倍——这意味着长文档分析、对话历史记忆等场景终于可以在国产芯片上顺畅运行。

硬件层：让算子更贴近芯片。在底层，开普云结合Codegen工具与国产编译器，完成了算子的自动生成与流水线调度。让芯片根据自身特性自动生成最优矩阵计算内核。经过大量调优，开普云的算子执行效率可达95%以上，在赶超国际主流GPU的性能方面差距显著缩小。

三、成果落地多行业，验证工程价值

上述优化成果已集成到开普云“开悟大模型智能体平台”和“AI一体机开悟魔盒”等AI产品中，并在政务、金融、医疗、能源与军工等场景落地。

在政务场景中，大模型可应用于智能问答、公文写作、报告生成等，带来精准、安全、便捷且智能的办公体验。同时，它能为传统智库赋能，强化数据整合与分析能力，增进知识理解与运用，提升政策研究效率，进而提高数字政府建设效能。

在金融领域，投研与合规报告的自动生成，大幅削减了重复的人工成本。AI可辅助金融机构打造个性化金融产品。在跨境金融业务中，AI能够实时监测汇率波动与政策变化，为企业制定最优的跨境支付与融资策略。

在医疗应用中，赋能智能导诊、病历生成、临床招募、肿瘤分期等智慧医疗场景，为患者提供与线下导诊台相当的服务，帮助医生大幅缩短病历书写时间，自动解析研究项目信息，主动发现符合条件的患者，以标准化流程生成科学、规范的肿瘤分期与治疗方案。

这些实际应用验证了系统优化的工程价值，也表明国产算力完全具备支撑行业级大模型应用的能力。

四、开源生态，推动社区共进

技术的价值，不止在性能指标，更在于能否被他人使用、改进和扩展。因此，开普云没有将这套优化方案锁在实验室，而是选择了选择了将成果开源，回馈社区，让更多开发者、科研机构和企业高效应用大模型。

公司已将优化后的推理方案、混合量化实现，以及部分算子生成工具链分享给社区，并将所用全部上传至 ModelScope 魔搭平台。项目上线不到一年，下载量便突破10,000次。更令人欣喜的是，许多科研机构和开发团队都在此基础上进行二次开发，并有团队将改进成果反馈回开源仓库，形成了一个活跃、协作的国产算力社区。

未来，开普云将继续探索推理调度、量化算法、跨芯片并行等方向的协同优化，让国产算力不只是“能跑模型”，而是能跑得高效、稳定。

END