开普云“大模型推理优化方案”入选中国信通院“2025开源+典型案例”
10月28日,中国通信标准化协会主办的“2025 OSCAR 开源产业大会”在北京举行。会上,中国信通院发布2025年度 OSCAR“开源+”典型案例评选结果,开普云凭借“国产算力生态下的大模型推理优化与系统协同实践”项目成功入选。
本次评选汇聚了众多国内顶尖科技企业,竞争异常激烈。经过严格筛选,最终仅有六家优秀案例成功入选,除开普云外,还包括火山引擎的Coze、中兴通讯的Co-Sight超级智能体、阿里云的MSE与Apache RocketMQ for AI全链路算法解决方案等行业知名案例。能够在此高水平竞技中跻身六强,彰显了开普云在大模型推理优化领域的前瞻洞察与系统突破。 过去两年间,大模型的浪潮推动了整个AI产业的系统性革新。模型越来越大,应用越来越广,然而,一个现实的问题也越来越突出:大模型推理太贵、太慢、太不兼容。尤其是在国产算力平台上,生态不成熟、优化链路不完善、框架层面适配不足,让很多企业在大模型落地阶段“寸步难行”。 开普云在长期实践中发现, 大模型在国产平台上的性能问题不是单一层面的,而是跨越了模型、系统和硬件三个层次: 基于此,开普云调整目标,不再局限于优化某个组件,而是贯通整个栈的“正交优化”,发起了“国产算力生态下的大模型推理优化与系统协同实践”项目,希望通过一套软硬件协同的完整路径,让国产算力生态真正具备高效运行大模型的能力,让国产芯片真正“跑起来”。 开普云整体方案可以概括为三个关键词:低精度、分级缓存、自动算子生成。 框架/模型层:让推理更轻、更聪明。开普云基于推理引擎层面实现了FP8与FP4的混合精度推理,并结合SmoothQuant等算法,在保持精度的同时显著降低了计算与存储成本。 同时,加入上下文感知的动态批处理机制。它能根据任务长度与硬件负载情况自动调整批大小,在吞吐与延迟之间找到最优平衡点。这让模型在面对复杂的实时请求时表现得更智能、更高效。 系统层:突破长上下文的存储瓶颈。为了解决显存不足的问题,开普云提出了显存—内存—SSD的三层分级KVCache调度机制。系统会动态预测缓存热度,把不常用的数据迁移到低速介质中,从而在不牺牲性能的前提下,显著扩大上下文长度。 在测试中,128Ktokens的超长上下文推理任务中,吞吐性能提升超过1.5倍——这意味着长文档分析、对话历史记忆等场景终于可以在国产芯片上顺畅运行。 上述优化成果已集成到开普云“开悟大模型智能体平台”和“AI一体机开悟魔盒”等AI产品中,并在政务、金融、医疗、能源与军工等场景落地。 这些实际应用验证了系统优化的工程价值,也表明国产算力完全具备支撑行业级大模型应用的能力。 技术的价值,不止在性能指标,更在于能否被他人使用、改进和扩展。因此,开普云没有将这套优化方案锁在实验室,而是选择了选择了将成果开源,回馈社区,让更多开发者、科研机构和企业高效应用大模型。 公司已将优化后的推理方案、混合量化实现,以及部分算子生成工具链分享给社区,并将所用全部上传至 ModelScope 魔搭平台。项目上线不到一年,下载量便突破10,000次。更令人欣喜的是,许多科研机构和开发团队都在此基础上进行二次开发,并有团队将改进成果反馈回开源仓库,形成了一个活跃、协作的国产算力社区。
未来,开普云将继续探索推理调度、量化算法、跨芯片并行等方向的协同优化,让国产算力不只是“能跑模型”,而是能跑得高效、稳定。