联系我们
回到顶部

开普云“大模型推理优化方案”入选中国信通院“2025开源+典型案例”

发布者:开普云
时间:2025-10-29
收藏
已收藏

10月28日,中国通信标准化协会主办的“2025 OSCAR 开源产业大会”在北京举行。会上,中国信通院发布2025年度 OSCAR“开源+”典型案例评选结果,开普云凭借“国产算力生态下的大模型推理优化与系统协同实践”项目成功入选。



图片


2c2bcc34fe17d0325a6d9039506d67c.png


本次评选汇聚了众多国内顶尖科技企业,竞争异常激烈。经过严格筛选,最终仅有六家优秀案例成功入选,除开普云外,还包括火山引擎的Coze、中兴通讯的Co-Sight超级智能体、阿里云的MSE与Apache RocketMQ for AI全链路算法解决方案等行业知名案例。能够在此高水平竞技中跻身六强,彰显了开普云在大模型推理优化领域的前瞻洞察与系统突破。


图片


一、洞悉系统瓶颈,推动全栈优化



过去两年间,大模型的浪潮推动了整个AI产业的系统性革新。模型越来越大,应用越来越广,然而,一个现实的问题也越来越突出:大模型推理太贵、太慢、太不兼容。尤其是在国产算力平台上,生态不成熟、优化链路不完善、框架层面适配不足,让很多企业在大模型落地阶段“寸步难行”。


开普云在长期实践中发现, 大模型在国产平台上的性能问题不是单一层面的,而是跨越了模型、系统和硬件三个层次:



模型层的优化与硬件解耦,无法充分利用硬件特性, 致使系统调度与精度损耗大于收益;
系统层调度粗糙,长上下文推理经常被显存掐断频繁卸载, 高并发环境出现气泡;
硬件层缺少适配算子,导致算力利用率远低于理论峰值。


基于此,开普云调整目标,不再局限于优化某个组件,而是贯通整个栈的“正交优化”,发起了“国产算力生态下的大模型推理优化与系统协同实践”项目,希望通过一套软硬件协同的完整路径,让国产算力生态真正具备高效运行大模型的能力,让国产芯片真正“跑起来”。





二、三大创新路径,构建高效推理体系




开普云整体方案可以概括为三个关键词:低精度、分级缓存、自动算子生成。



框架/模型层:让推理更轻、更聪明。开普云基于推理引擎层面实现了FP8与FP4的混合精度推理,并结合SmoothQuant等算法,在保持精度的同时显著降低了计算与存储成本。


同时,加入上下文感知的动态批处理机制。它能根据任务长度与硬件负载情况自动调整批大小,在吞吐与延迟之间找到最优平衡点。这让模型在面对复杂的实时请求时表现得更智能、更高效。

系统层:突破长上下文的存储瓶颈。为了解决显存不足的问题,开普云提出了显存—内存—SSD的三层分级KVCache调度机制。系统会动态预测缓存热度,把不常用的数据迁移到低速介质中,从而在不牺牲性能的前提下,显著扩大上下文长度。


在测试中,128Ktokens的超长上下文推理任务中,吞吐性能提升超过1.5倍——这意味着长文档分析、对话历史记忆等场景终于可以在国产芯片上顺畅运行。

硬件层:让算子更贴近芯片。在底层,开普云结合Codegen工具与国产编译器,完成了算子的自动生成与流水线调度。让芯片根据自身特性自动生成最优矩阵计算内核。经过大量调优,开普云的算子执行效率可达95%以上,在赶超国际主流GPU的性能方面差距显著缩小。




三、成果落地多行业,验证工程价值



上述优化成果已集成到开普云“开悟大模型智能体平台”和“AI一体机开悟魔盒”等AI产品中,并在政务、金融、医疗、能源与军工等场景落地。



在政务场景中,大模型可应用于智能问答、公文写作、报告生成等,带来精准、安全、便捷且智能的办公体验。同时,它能为传统智库赋能,强化数据整合与分析能力,增进知识理解与运用,提升政策研究效率,进而提高数字政府建设效能。
在金融领域,投研与合规报告的自动生成,大幅削减了重复的人工成本。AI可辅助金融机构打造个性化金融产品。在跨境金融业务中,AI能够实时监测汇率波动与政策变化,为企业制定最优的跨境支付与融资策略。
在医疗应用中,赋能智能导诊、病历生成、临床招募、肿瘤分期等智慧医疗场景,为患者提供与线下导诊台相当的服务,帮助医生大幅缩短病历书写时间,自动解析研究项目信息,主动发现符合条件的患者,以标准化流程生成科学、规范的肿瘤分期与治疗方案。

这些实际应用验证了系统优化的工程价值,也表明国产算力完全具备支撑行业级大模型应用的能力。





四、开源生态,推动社区共进



技术的价值,不止在性能指标,更在于能否被他人使用、改进和扩展。因此,开普云没有将这套优化方案锁在实验室,而是选择了选择了将成果开源,回馈社区,让更多开发者、科研机构和企业高效应用大模型。


公司已将优化后的推理方案、混合量化实现,以及部分算子生成工具链分享给社区,并将所用全部上传至 ModelScope 魔搭平台。项目上线不到一年,下载量便突破10,000次。更令人欣喜的是,许多科研机构和开发团队都在此基础上进行二次开发,并有团队将改进成果反馈回开源仓库,形成了一个活跃、协作的国产算力社区。


图片


未来,开普云将继续探索推理调度、量化算法、跨芯片并行等方向的协同优化,让国产算力不只是“能跑模型”,而是能跑得高效、稳定。


END