稀疏专家大语言模型架构
DeepSeek的核心技术创新在于采用Mixture of Experts (MoE)架构实现大语言模型的稀疏激活机制,通过专有路由算法动态选择和激活少量相关专家模型处理输入,显著降低计算资源消耗。该技术优化了模型扩展性和推理效率,支持大规模并行训练和高效推理,同时保持高精度。创新点包括精细化的专家路由策略和低开销激活机制,与传统密集模型相比,在资源有限环境下实现高性能部署。
融资次数
1
经营范围
一般项目:工程和技术研究和试验发展;技术服务、技术开发、技术咨询、技术交流、技术转让、技术推广;软件开发;计算机系统服务;信息系统集成服务;人工智能应用软件开发;信息技术咨询服务;电子产品销售;通讯设备销售;仪器仪表销售;数据处理服务;互联网数据服务;计算机软硬件及辅助设备零售;人工智能硬件销售;专业设计服务(除依法须经批准的项目外,凭营业执照依法自主开展经营活动)。
主营业务
研发并开源大语言模型及多模态AI系统,推动通用人工智能底层技术突破和应用落地。
杭州深度求索人工智能基础技术研究有限公司
其他有限责任公司
¥1,000万
2023-07-17
裴湉
0571-85377238
service@deepseek.com
浙江省杭州市拱墅区环城北路169号汇金国际大厦西1幢1201室