所有语言都重要:关于大型语言模型的多语言安全性
为了进一步推动大型语言模型的安全部署,我们开发了一个中文 LLM 安全评估基准。我们的基准从八种典型的安全场景和六种更具挑战性的指令攻击等两个方面探索了 LLMs 的综合安全表现,并对 OpenAI GPT 系列和其他知名的中文 LLMs 等共 15 个 LLMs 进行了安全评估并分析了一些有趣的发现,公开发布了 100k 个增强测试用例和 LLMs 生成的响应。
Apr, 2023
本文探讨大型语言模型在多语言环境中的安全挑战,并讨论缓解此类问题的方法。通过比较先进的语言模型对高资源语言和低资源语言下恶意提示的响应,我们发现低资源语言中的恶意提示往往导致不安全的回答,并且语言模型对低资源语言的恶意提示产生更多的无关回答。此外,我们发现提高模型对高资源语言的训练并没有带来显著改善,表明跨语言对齐的瓶颈在于预训练阶段。我们的发现凸显了跨语言大型语言模型安全的挑战,并希望这些发现能指导未来的研究。
Jan, 2024
以 SafetyBench 为基础,该研究设计了一个综合评估大型语言模型安全性的基准测试工具,包括 11435 个不同类别的问题,并能够提供两种语言(中文和英文)的评估结果,通过测试发现 GPT-4 在安全性方面相较于其他模型表现突出,但当前大型语言模型的安全性仍有提升空间。
Sep, 2023
通过引入一个用于评估中文 LLM 安全性的数据集,我们扩展到其他两个场景,用于更好地识别有风险的提示拒绝的假阴性和假阳性示例,并提出了细化的每种风险类型的安全评估标准,为 LLM 响应的有害性进行手动注释和自动评估。我们在五个 LLM 上的实验表明,区域特定风险是最普遍的风险类型,是我们所研究的所有中文 LLM 的主要问题。
Feb, 2024
开发大型语言模型的快速加速使得开源和开放获取的模型成为 ChatGPT 等专有模型的可行替代。然而,缺乏适当的引导和保障,大型语言模型容易遵循恶意指令、提供不安全建议和生成有害内容,这对企业和开发者来说是一个重大的安全风险。我们引入了 SimpleSafetyTests 作为一套新的测试套件,用于快速系统地鉴定此类重大安全风险。该测试套件包含 100 个测试提示,涵盖了大大多数应用中大型语言模型在五个危害方面应拒绝遵守的内容。我们测试了 11 个受欢迎的开源大型语言模型,并发现其中有几个存在重大的安全弱点。虽然一些大型语言模型没有给出任何不安全的回答,但我们测试的大多数模型在超过 20% 的情况下都会回答不安全,并且在极端情况下有超过 50% 的不安全回答。在系统提示中追加强调安全性的内容能够大大减少不安全回答的发生,但并不能完全阻止。我们建议开发者将此类系统提示作为防范重大安全风险的第一层防线。
Nov, 2023
引入了一个多轮对抗基准 (SuperCLUE-Safety),通过人机对抗交互和对话的方式,系统评估了中文大型语言模型 (Large language models) 的安全性,发现闭源模型在安全性方面优于开源模型,中国发布的模型与 GPT-3.5-turbo 等模型具有可比较的安全水平,某些参数为 6B-13B 的较小模型在安全性方面同样具有有效竞争力,这项基准和发现为模型选择提供了指导。
Oct, 2023
大型语言模型(LLMs)存在潜在的安全隐患,因此需要发展预防措施。本研究揭示了 LLMs 内存在的多语言破解挑战,并针对意外和恶意的风险场景进行了探讨。实验结果显示,在多语言环境中,通过自卫框架进行训练可以显著减少 LLMs 生成的不安全内容。
Oct, 2023
系统回顾了用于评估和改进大型语言模型安全性的开放数据集,研究了 102 个数据集,并发现了可用数据集的使用模式和趋势,以及数据集覆盖的缺口和目前评估实践的局限性。
Apr, 2024
本文介绍了 MLLMGuard,一个针对 MLLMs 的多维安全评估套件,包括双语图文评估数据集、推理工具和轻量级评估器。通过对隐私、偏见、有毒性、真实性和合法性等五个重要安全维度进行全面评估,结果表明 MLLMs 在安全和责任方面仍有很长的路要走。
Jun, 2024
利用较小的大语言模型实现有害查询检测和安全响应,通过多任务学习机制融合两个任务到一个模型里,效果在公开的大语言模型上表现相当或超过有害查询检测和安全响应的性能。
May, 2024