SimpleSafetyTests: 大型语言模型中关键安全风险的测试套件

Nov, 2023

SimpleSafetyTests: 大型语言模型中关键安全风险的测试套件

SimpleSafetyTests: a Test Suite for Identifying Critical Safety Risks in Large Language Models

Bertie Vidgen, Hannah Rose Kirk, Rebecca Qian, Nino Scherrer, Anand Kannappan...

TL;DR开发大型语言模型的快速加速使得开源和开放获取的模型成为 ChatGPT 等专有模型的可行替代。然而，缺乏适当的引导和保障，大型语言模型容易遵循恶意指令、提供不安全建议和生成有害内容，这对企业和开发者来说是一个重大的安全风险。我们引入了 SimpleSafetyTests 作为一套新的测试套件，用于快速系统地鉴定此类重大安全风险。该测试套件包含 100 个测试提示，涵盖了大大多数应用中大型语言模型在五个危害方面应拒绝遵守的内容。我们测试了 11 个受欢迎的开源大型语言模型，并发现其中有几个存在重大的安全弱点。虽然一些大型语言模型没有给出任何不安全的回答，但我们测试的大多数模型在超过 20% 的情况下都会回答不安全，并且在极端情况下有超过 50% 的不安全回答。在系统提示中追加强调安全性的内容能够大大减少不安全回答的发生，但并不能完全阻止。我们建议开发者将此类系统提示作为防范重大安全风险的第一层防线。

Abstract

The past year has seen rapid acceleration in the development of large language models (LLMs). For many tasks, there is now a wide range of open-source and open-access LLMs that are viable alternatives to proprietary models like ChatGPT. Without proper steering and safeguards, however, LLMs will readily follow malicious instructions, provide unsafe advice, an

large language models simplesafetytests safety risks unsafe responses system prompts

发现论文，激发创造

所有语言都重要：关于大型语言模型的多语言安全性

我们建立了第一个多语言安全基准（XSafety）用于大型语言模型的开发和部署，在实验中发现所有的大型语言模型对非英语查询的不安全回复明显增多，为此我们提出了几种简单有效的提示方法，从而显著提高 ChatGPT 的多语言安全性。

Oct, 2023

减轻大型语言模型中的夸大安全性

通过使用多种提示策略，我们成功地减少了大型语言模型中的过度安全行为，这些策略包括使用 XSTest 数据集、交互提示、上下文提示以及少样本提示，从而使模型能够在拒绝不安全的输入的同时保持有用性。

May, 2024

中国大型语言模型的安全评估

为了进一步推动大型语言模型的安全部署，我们开发了一个中文 LLM 安全评估基准。我们的基准从八种典型的安全场景和六种更具挑战性的指令攻击等两个方面探索了 LLMs 的综合安全表现，并对 OpenAI GPT 系列和其他知名的中文 LLMs 等共 15 个 LLMs 进行了安全评估并分析了一些有趣的发现，公开发布了 100k 个增强测试用例和 LLMs 生成的响应。

Apr, 2023

警示：通过红队测试全面评估大型语言模型的安全性的综合基准

应用 ALERT 基准评估安全性，通过对大规模语言模型进行对抗测试，识别漏洞，改进并提高语言模型的整体安全性。

Apr, 2024

TroubleLLM: 与红队专家对齐

通过提出的第一个 LLM 模型 TroubleLLM 在 LLM 安全问题上生成可控的测试提示，广泛的实验和人工评估表明 TroubleLLM 在生成质量和生成可控性上的优越性。

Feb, 2024

用于评估大型语言模型中的保障措施的中文数据集

通过引入一个用于评估中文 LLM 安全性的数据集，我们扩展到其他两个场景，用于更好地识别有风险的提示拒绝的假阴性和假阳性示例，并提出了细化的每种风险类型的安全评估标准，为 LLM 响应的有害性进行手动注释和自动评估。我们在五个 LLM 上的实验表明，区域特定风险是最普遍的风险类型，是我们所研究的所有中文 LLM 的主要问题。

Feb, 2024

XSTest: 用于识别大型语言模型中夸大安全行为的测试套件

大语言模型生成有害内容，因此需通过安全机制和测试套件（如 XSTest）来解决此问题，并发现最新的语言模型的系统故障模式。

Aug, 2023

CyberSecEval 2: 大型语言模型的广泛网络安全评估套件

大型语言模型引入新的安全风险，但缺乏综合评估套件来衡量和减少这些风险。我们提出了 BenchmarkName，这是一个用于量化 LLM 安全风险和能力的新型基准。我们介绍了两个新领域的测试：提示注入和代码解释器滥用。我们评估了多种最先进的 LLMs，包括 GPT-4、Mistral、Meta Llama 3 70B-Instruct 和 Code Llama。我们的结果表明，消除攻击风险的条件仍然是一个尚未解决的问题；例如，所有测试模型在成功的提示注入测试中显示出 26% 到 41% 之间的结果。我们进一步引入了安全效用权衡：将 LLM 条件化以拒绝不安全的提示可能导致 LLM 错误地拒绝回答良性提示，从而降低效用。我们建议使用 False Refusal Rate（FRR）来量化这种权衡。作为示例，我们引入了一个新的测试集来量化网络攻击有用性风险的 FRR。我们发现，许多 LLMs 能够与 “边界线” 良性请求成功地相符，同时拒绝大部分不安全的请求。最后，我们量化了 LLMs 在自动化核心网络安全任务（例如利用软件漏洞）方面的效用。这很重要，因为 LLMs 的进攻能力引起了极大的兴趣；我们通过为四个典型问题创建新的测试集来量化这一点。我们发现具有编码能力的模型优于无编码能力的模型，但 LLMs 在利用生成方面还需要进一步的工作。我们的代码是开源的，可以用于评估其他 LLMs。

Apr, 2024

SafetyPrompts: 评估和改进大型语言模型安全性的开放数据集的系统综述

系统回顾了用于评估和改进大型语言模型安全性的开放数据集，研究了 102 个数据集，并发现了可用数据集的使用模式和趋势，以及数据集覆盖的缺口和目前评估实践的局限性。

Apr, 2024

S-Eval: 大型语言模型安全评估的自动化和自适应测试生成

在这项工作中，我们提出了 S-Eval，这是一个新的全面、多维度且开放的安全评估基准，通过训练专家测试的大型语言模型 Mt 与一系列测试选择策略相结合，自动构建了一个高质量的测试套件用于安全评估。该论文还介绍了一个四级的风险分类体系，覆盖了全面多维的安全风险，同时提供了灵活配置和适应新风险、攻击和模型的能力。S-Eval 在 20 个流行和代表性的大型语言模型上进行了广泛评估，结果表明相比现有的基准，S-Eval 可以更好地反映和提供大型语言模型的安全风险信息。

May, 2024