DeepSeek-V2 大模型
收藏
已收藏
公司推荐
产品详情
DeepSeek-V2 是一款基于混合专家(Mixture of Experts, MoE)架构的大规模语言模型,其核心创新点在于采用稀疏激活策略,仅在推理过程中激活模型的部分参数模块,而非全模型计算。这不仅显著降低了计算资源消耗(如 GPU 使用),还实现了更高的处理效率和成本效益,适用于低预算环境。该模型在多项自然语言处理基准测试(如 MMLU、GSM8K)中表现优异,体现了算法优化和硬件友好设计。