关注
已关注
稀疏专家模型 (MoE)
收藏
已收藏
产品详情
DeepSeek的核心预训练架构采用稀疏混合专家模型(Mixture of Experts),其创新点在于动态路由机制:对每个输入token只激活少量专家模块(如10亿参数模型中每个token仅调用1-2个专家),从而显著提升模型容量(最高达千亿级)同时保持训练和推理效率。关键技术突破包括基于负载均衡的专家分配算法,以及专家并行分布式训练框架,实现训练吞吐量相比密集模型提升3倍以上。
员工数量
100-499人
公司全称
石药集团有限公司
公司类型
公众股份有限公司
成立时间
1992-06-16
法定代表人
DONG CHEN CAI
电话
00852-28023011
邮箱
info@cspc.hk
地址
香港湾仔港湾道18号中环广场32楼3206室