易用好用,寒武纪引领AI芯片软件新生态
寒武纪成立的初衷是为“人工智能的大爆发”提供底层算力支持,不仅要硬件算力强大,更要软件通用、易用。多年来,寒武纪坚持训练推理融合、统一的基础软件平台研发策略,构建从自研芯片架构到高性能软件平台的完整体系,实现了计算架构、编译优化与算法调度的深度融合:硬件为算法提供极致的并行性能与能效比,软件则通过编译优化、调度策略与模型适配,让每一份算力都被充分释放。
寒武纪基础软件平台Cambricon NeuWare,让用户与开发者能够跨越不同的寒武纪硬件和应用场景,降低上手难度,提升开发效率,快速迁移与部署AI应用。经过多年投入与积累,寒武纪基础软件平台Cambricon NeuWare已经日趋成熟,全面兼容社区最新PyTorch版本和Triton算子开发语言,支持用户模型和自定义算子快速迁移。经过持续的全栈优化,Cambricon NeuWare基础软件平台在多项指标上都已达到业界领先水平,特别针对当前业界极具挑战的大规模集群运维实践,进一步丰富和完善了多项集群工具,为大规模训练推理业务在集群环境中的部署运维调试和调优提供了坚实的底座。
寒武纪大模型和搜广推训推解决方案,
已完成大规模技术和产品验证
大模型技术正成为智能经济的核心驱动力,深刻重塑人机交互的方式。“搜广推”场景 —— 即搜索、广告与推荐系统 —— 成为大模型技术落地最具价值的前沿阵地之一。大模型赋能的搜广推系统,不仅带来用户体验的显著提升,更重塑了流量分发的逻辑:让“找信息”、“看内容”、“买东西”从被动推荐走向主动理解,从关键词匹配迈向意图洞察。
大模型与“搜广推”的融合,不仅是一场技术革新,更是商业模式的再造。寒武纪在大模型与搜广推的训练推理上,都已完成了大规模的技术和产品验证。
在搜广推训练方向,寒武纪稳步推进技术和产品验证。验证结果表明,解决方案可支撑多场景下的流式训练任务,可持续超数月稳定运行,精度与稳定性均满足要求。持续性能优化方面,完成Layernorm/RMSNorm/L2Norm等多种图匹配融合,显著提升性能。在图融合基础上进一步优化XLA支持,并获得更显著的加速比结果。
在大模型训练方向,寒武纪重点支持DeepSeek V3/V3.1、Qwen2.5/Qwen3/Qwen3-next等MoE类模型训练,同时扩展了GLM4.5、Flux、Wan2.1/2.2、Qwen3-VL、Hunyuan-Video等模型的训练支持。基于原生FP8的计算能力,新增Qwen/DeepSeek等系列网络FP8的训练支持,精度符合预期。
在大模型推理方向,寒武纪