安全治理，基于价值观对齐的安全大模型

原创 Botsmart 博特智能BotSmart 2025年07月29日 09:26

作为中国科技创新面向世界的重要平台，WAIC 2025以“智能时代同球共济”为主题7月26日隆重开幕。

而作为世界人工智能大会的重要系列论坛之一，已走过7个年头的“AI商业落地论坛”愈发炙热。博特智能首席科学家谭建龙博士应邀参会，并就大模型安全治理，发表演讲，全文概要如下，供读者参考。

大家好，我将从大模型安全治理定义与重要性、技术体系、服务实践以及未来展望四个方面，全面介绍我们在大模型安全治理方面的探索与创新。

根据2025年实施的《网络安全技术生成式人工智能服务安全基本要求》国家标准，生成式人工智能安全治理是指在大型语言模型的整个生命周期中，为确保其安全性、隐私保护、合规性、伦理性和可信赖性而采取的一系列系统性管理措施和技术手段。这一工作的重要性不言而喻。

随着大模型在各行各业的广泛应用，其潜在的安全威胁和滥用风险也日益凸显。从提示注入与越狱攻击到数据和模型中毒，从敏感信息泄露到恶意利用，这些风险都可能对个人、企业乃至国家安全造成严重影响。2025年4月，中央网信办部署开展的'清朗•整治AI技术滥用'专项行动，更是凸显了加强AI技术源头治理的紧迫性。

我们的构建的大模型安全治理体系由三大核心支柱组成：安全加固技术、自动评测与对抗系统、以及内容围栏技术。

在安全加固方面，我们创新性地提出了价值观对齐方法。通过安全数据集微调和强化学习，我们将社会主义核心价值观深度嵌入模型的推理逻辑中。例如，当用户提出涉及法律灰色地带的问题时，模型在拒答的同时还会主动提示相关法律风险,用户体验提升。我们构建的100万+安全测试题库和50+提示词注入库，为模型安全训练提供了坚实基础。

在自动评测方面，我们开发了覆盖国家标准定义的5类31种风险的测试体系，通过毒性增强技术和持续对抗测试，确保模型在各种攻击场景下的鲁棒性。

内容围栏技术则通过多模态分析模型和智能审校平台，实现了对输入输出内容的全方位监控和过滤。

在实际服务方面，博特智能打造了完整的全周期安全治理服务体系。从最初的语料清洗，到模型训练阶段的价值观对齐，再到部署阶段的内容围栏防护，我们为各类企业提供一站式解决方案。

以政务领域为例，我们开发的'妙笔AI政务办公平台'集成了意识形态安全大模型，确保公文写作既高效又合规。目前，我们的AI安全解决方案已服务于中科院、新华社、中国移动等数千家客户，日均处理超过10亿次内容审核请求。

展望未来，中国大模型产业规模预计将在2026年突破700亿元。在这个快速发展的赛道上，安全治理将成为决定成败的关键因素。博特智能将继续发挥先发技术优势，在语料清洗、模型评测、围栏防护等领域持续创新。我们相信，只有坚持'合法、合规、可控'的发展理念，才能真正推动生成式人工智能技术的健康发展。

欢迎各位访问我们的博特

内容审核平台挖错网'https://www.wacuowang.com，亲身体验我们的技术成果。

让我们携手共建安全可信的人工智能生态，为数字中国建设贡献力量。谢谢大家！