多语言对齐预训练
收藏
已收藏
公司推荐
产品详情
通过创新的课程学习框架实现中文与英文能力协同优化:在预训练阶段采用渐进式语料混合策略(早期中文占比70%,后期平衡至50%),并原创中文语义单元分割算法,解决中英文混合编码冲突问题。核心技术指标包括中文CLUE榜单零样本学习准确率超越GPT-4(85.3% vs 83.1%),同时保持英文MMLU基准同等水平。