基于价值观对齐的安全大模型
博特智能
智能内容风控SaaS平台
+关注
已关注
已点赞
点赞
转发
已收藏
收藏

安全治理,基于价值观对齐的安全大模型

 Botsmart 博特智能BotSmart 2025年07月29日 09:26 

作为中国科技创新面向世界的重要平台,WAIC 2025以“智能时代 同球共济”为主题7月26日隆重开幕。


图片


而作为世界人工智能大会的重要系列论坛之一,已走过7个年头的“AI商业落地论坛”愈发炙热。博特智能首席科学家谭建龙博士应邀参会,并就大模型安全治理,发表演讲,全文概要如下,供读者参考。


图片

大家好,我将从大模型安全治理定义与重要性、技术体系、服务实践以及未来展望四个方面,全面介绍我们在大模型安全治理方面的探索与创新。


根据2025年实施的《网络安全技术生成式人工智能服务安全基本要求》国家标准,生成式人工智能安全治理是指在大型语言模型的整个生命周期中,为确保其安全性、隐私保护、合规性、伦理性和可信赖性而采取的一系列系统性管理措施和技术手段。这一工作的重要性不言而喻。

图片


随着大模型在各行各业的广泛应用,其潜在的安全威胁和滥用风险也日益凸显。从提示注入与越狱攻击到数据和模型中毒,从敏感信息泄露到恶意利用,这些风险都可能对个人、企业乃至国家安全造成严重影响。2025年4月,中央网信办部署开展的'清朗•整治AI技术滥用'专项行动,更是凸显了加强AI技术源头治理的紧迫性。

我们的构建的大模型安全治理体系由三大核心支柱组成:安全加固技术、自动评测与对抗系统、以及内容围栏技术。

图片


在安全加固方面,我们创新性地提出了价值观对齐方法。通过安全数据集微调和强化学习,我们将社会主义核心价值观深度嵌入模型的推理逻辑中。例如,当用户提出涉及法律灰色地带的问题时,模型在拒答的同时还会主动提示相关法律风险,用户体验提升。我们构建的100万+安全测试题库和50+提示词注入库,为模型安全训练提供了坚实基础。

图片


在自动评测方面,我们开发了覆盖国家标准定义的5类31种风险的测试体系,通过毒性增强技术和持续对抗测试,确保模型在各种攻击场景下的鲁棒性。

图片


内容围栏技术则通过多模态分析模型和智能审校平台,实现了对输入输出内容的全方位监控和过滤。

在实际服务方面,博特智能打造了完整的全周期安全治理服务体系。从最初的语料清洗,到模型训练阶段的价值观对齐,再到部署阶段的内容围栏防护,我们为各类企业提供一站式解决方案。


以政务领域为例,我们开发的'妙笔AI政务办公平台'集成了意识形态安全大模型,确保公文写作既高效又合规。目前,我们的AI安全解决方案已服务于中科院、新华社、中国移动等数千家客户,日均处理超过10亿次内容审核请求。

展望未来,中国大模型产业规模预计将在2026年突破700亿元。在这个快速发展的赛道上,安全治理将成为决定成败的关键因素。博特智能将继续发挥先发技术优势,在语料清洗、模型评测、围栏防护等领域持续创新。我们相信,只有坚持'合法、合规、可控'的发展理念,才能真正推动生成式人工智能技术的健康发展。


欢迎各位访问我们的博特

内容审核平台挖错网'https://www.wacuowang.com,亲身体验我们的技术成果。


 让我们携手共建安全可信的人工智能生态,为数字中国建设贡献力量。谢谢大家!


推荐
来自博特智能