SC-Safety：大语言模型中的多轮开放性问题对抗安全基准

Oct, 2023

SC-Safety：大语言模型中的多轮开放性问题对抗安全基准

SC-Safety: A Multi-round Open-ended Question Adversarial Safety Benchmark for Large Language Models in Chinese

Liang Xu, Kangkang Zhao, Lei Zhu, Hang Xue

TL;DR引入了一个多轮对抗基准 (SuperCLUE-Safety)，通过人机对抗交互和对话的方式，系统评估了中文大型语言模型 (Large language models) 的安全性，发现闭源模型在安全性方面优于开源模型，中国发布的模型与 GPT-3.5-turbo 等模型具有可比较的安全水平，某些参数为 6B-13B 的较小模型在安全性方面同样具有有效竞争力，这项基准和发现为模型选择提供了指导。

Abstract

large language models (LLMs), like ChatGPT and GPT-4, have demonstrated remarkable abilities in natural language understanding and generation. However, alongside their positive impact on our daily tasks, they can also produce harmful content that negatively affects societal perceptions

large language models chinese llms superclue-safety safety benchmark

发现论文，激发创造

中国大型语言模型的安全评估

为了进一步推动大型语言模型的安全部署，我们开发了一个中文 LLM 安全评估基准。我们的基准从八种典型的安全场景和六种更具挑战性的指令攻击等两个方面探索了 LLMs 的综合安全表现，并对 OpenAI GPT 系列和其他知名的中文 LLMs 等共 15 个 LLMs 进行了安全评估并分析了一些有趣的发现，公开发布了 100k 个增强测试用例和 LLMs 生成的响应。

Apr, 2023

SafetyBench: 用多项选择题评估大型语言模型的安全性

以 SafetyBench 为基础，该研究设计了一个综合评估大型语言模型安全性的基准测试工具，包括 11435 个不同类别的问题，并能够提供两种语言（中文和英文）的评估结果，通过测试发现 GPT-4 在安全性方面相较于其他模型表现突出，但当前大型语言模型的安全性仍有提升空间。

Sep, 2023

CHiSafetyBench：一份用于大型语言模型的中文分层安全基准评测

该论文介绍了 CHiSafetyBench，这是一个专门用于评估大型语言模型在中文情境中识别危险内容和拒绝回答危险问题能力的安全基准。通过该基准，作者验证了自动评估作为人工评估的替代的可行性，并对主流的中文语言模型进行了全面的自动安全评估。实验表明，不同模型在各个安全领域的性能存在差异，指示了所有模型在中国的安全能力方面有相当大的改进潜力。

Jun, 2024

所有语言都重要：关于大型语言模型的多语言安全性

我们建立了第一个多语言安全基准（XSafety）用于大型语言模型的开发和部署，在实验中发现所有的大型语言模型对非英语查询的不安全回复明显增多，为此我们提出了几种简单有效的提示方法，从而显著提高 ChatGPT 的多语言安全性。

Oct, 2023

用于评估大型语言模型中的保障措施的中文数据集

通过引入一个用于评估中文 LLM 安全性的数据集，我们扩展到其他两个场景，用于更好地识别有风险的提示拒绝的假阴性和假阳性示例，并提出了细化的每种风险类型的安全评估标准，为 LLM 响应的有害性进行手动注释和自动评估。我们在五个 LLM 上的实验表明，区域特定风险是最普遍的风险类型，是我们所研究的所有中文 LLM 的主要问题。

Feb, 2024

SuperCLUE：一个全面的中文大语言模型基准

通过提出综合性的中文基准 SuperCLUE，我们展示了现有评估模型性能的精确性不足以反映用户偏好的情况，并且 GPT-4 可以可靠地自动评估用户对中文开放性问题的偏好。

Jul, 2023

火焰：中国大型语言模型价值对齐基准测试

该研究论文提出了一个高度对抗性的基准测试叫做 Flames，用于评估大型语言模型与人类价值观的一致性，并揭示了现有测试无法有效发现这些模型的安全漏洞。通过与复杂场景和恶意方法相结合的对抗性提示，研究者发现所有评估的大型语言模型在 Flames 测试中表现较差，尤其是在安全性和公平性方面。为了高效评估新模型，他们开发了一个多维度评分器，可以准确评分多个大型语言模型。Flames 基准测试已经公开可用。

Nov, 2023

SimpleSafetyTests: 大型语言模型中关键安全风险的测试套件

开发大型语言模型的快速加速使得开源和开放获取的模型成为 ChatGPT 等专有模型的可行替代。然而，缺乏适当的引导和保障，大型语言模型容易遵循恶意指令、提供不安全建议和生成有害内容，这对企业和开发者来说是一个重大的安全风险。我们引入了 SimpleSafetyTests 作为一套新的测试套件，用于快速系统地鉴定此类重大安全风险。该测试套件包含 100 个测试提示，涵盖了大大多数应用中大型语言模型在五个危害方面应拒绝遵守的内容。我们测试了 11 个受欢迎的开源大型语言模型，并发现其中有几个存在重大的安全弱点。虽然一些大型语言模型没有给出任何不安全的回答，但我们测试的大多数模型在超过 20% 的情况下都会回答不安全，并且在极端情况下有超过 50% 的不安全回答。在系统提示中追加强调安全性的内容能够大大减少不安全回答的发生，但并不能完全阻止。我们建议开发者将此类系统提示作为防范重大安全风险的第一层防线。

Nov, 2023

OpenEval: 对中文语言模型在能力、对齐性和安全性方面进行基准测试

开放评估是一个评估测试基地，以能力、对齐和安全等方面对中文大型语言模型进行基准测试，并发现了在常识推理、对齐和安全性等方面需要更多关注的问题。

Mar, 2024

通过话语链安全对齐红队大型语言模型

基于大型语言模型的安全性评估与对抗、生成有害回应的问题以及安全对齐的方法和模型研究。

Aug, 2023