DeepSeek-V3.2-Exp - 视频 - innoHere英诺嘿呀

DeepSeek-V3.2-Exp

DeepSeek

人工智能研究机构

+关注

已关注

已点赞

已收藏

DeepSeek Sparse Attention（DSA）

稀疏注意力机制

DeepSeek Sparse Attention（DSA）首次实现了细粒度稀疏注意力机制，在几乎不影响模型输出效果的前提下，实现了长文本训练和推理效率的大幅提升。

为了严谨地评估引入稀疏注意力带来的影响，我们特意把 DeepSeek-V3.2-Exp 的训练设置与 V3.1-Terminus 进行了严格的对齐。在各领域的公开评测集上，DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 基本持平。

论文链接 & 模型开源

DeepSeek-V3.2-Exp 模型现已在 Huggingface 与魔搭开源：

HuggingFace：

https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

ModelScope：

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp

论文也已同步公开：

https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

TileLang & CUDA 算子开源

在新模型的研究过程中，需要设计和实现很多新的 GPU 算子。我们使用高级语言 TileLang 进行快速原型开发，以支持更深入的探索。在最后阶段，以 TileLang 作为精度基线，逐步使用底层语言实现更高效的版本。因此，本次开源的主要算子包含 TileLang 与 CUDA 两种版本。我们建议社区在进行研究性实验时，使用基于 TileLang 的版本以方便调试和快速迭代。

API 支持

得益于新模型服务成本的大幅降低，官方 API 价格也相应下调，新价格即刻生效。

在新的价格政策下，开发者调用 DeepSeek API 的成本将降低 50% 以上。

目前 API 的模型版本为 DeepSeek-V3.2-Exp，访问方式保持不变。欢迎用户使用 DeepSeek 官方的 API 服务。