强化学习优化技术
收藏
已收藏
公司推荐
产品详情
采用基于人类反馈的强化学习(RLHF)进行模型微调,通过算法如PPO优化模型输出,使其与人类偏好和安全规范对齐。创新点在于构建定制化奖励模型和高效策略优化框架,结合大规模数据训练,实现对话质量的提升和有害内容的减少。
融资次数
3
员工数量
-
公司简介
边塞科技成立于2023年,是一家人工智能大模型技术公司,用强化学习为更多人创造更好的智能体验。
经营范围
一般项目:技术服务、技术开发、技术咨询、技术交流、技术转让、技术推广;网络技术服务;软件开发;物联网技术服务;信息技术咨询服务;计算机软硬件及辅助设备批发;计算机软硬件及辅助设备零售。(除依法须经批准的项目外,凭营业执照依法自主开展经营活动)(不得从事国家和本市产业政策禁止和限制类项目的经营活动。)
主营业务
提供人工智能大模型技术,通过强化学习优化智能体验。
北京谱塞科技有限公司
有限责任公司(台港澳法人独资)
$600万
2023-07-28
吴鹏飞
15071660966
lishihui@openpsi.com
北京市海淀区永丰路9号院3号楼A座2层中段345号