SORRY-Bench: 大型语言模型安全拒绝行为系统评估

Jun, 2024

SORRY-Bench: 大型语言模型安全拒绝行为系统评估

SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors

Tinghao Xie, Xiangyu Qi, Yi Zeng, Yangsibo Huang, Udari Madhushani Sehwag...

TL;DR评估大型语言模型识别和拒绝不安全用户请求的能力对于安全和符合政策的应用至关重要，SORRY-Bench 是我们提出的基准测试方法，改善了现有方法的三个局限，包括对不安全主题的细致分类、考虑语言特征和格式的偏差以及设计高效的自动化安全评估器。

Abstract

Evaluating aligned large language models' (LLMs) ability to recognize and reject unsafe user requests is crucial for safe, policy-compliant deployments. Existing evaluation efforts, however, face three limitations that we address with →

large language models sorry-bench unsafe topics linguistic characteristics automated safety evaluator

发现论文，激发创造

OR-Bench：大型语言模型的拒绝过度基准

通过自动生成大规模的看似有害的提示，该研究提出了 OR-Bench，首个大规模的拒绝基准，用于度量 25 个热门 LLM 模型的过度拒绝。

May, 2024

SafetyBench: 用多项选择题评估大型语言模型的安全性

以 SafetyBench 为基础，该研究设计了一个综合评估大型语言模型安全性的基准测试工具，包括 11435 个不同类别的问题，并能够提供两种语言（中文和英文）的评估结果，通过测试发现 GPT-4 在安全性方面相较于其他模型表现突出，但当前大型语言模型的安全性仍有提升空间。

Sep, 2023

CyberSecEval 2: 大型语言模型的广泛网络安全评估套件

大型语言模型引入新的安全风险，但缺乏综合评估套件来衡量和减少这些风险。我们提出了 BenchmarkName，这是一个用于量化 LLM 安全风险和能力的新型基准。我们介绍了两个新领域的测试：提示注入和代码解释器滥用。我们评估了多种最先进的 LLMs，包括 GPT-4、Mistral、Meta Llama 3 70B-Instruct 和 Code Llama。我们的结果表明，消除攻击风险的条件仍然是一个尚未解决的问题；例如，所有测试模型在成功的提示注入测试中显示出 26% 到 41% 之间的结果。我们进一步引入了安全效用权衡：将 LLM 条件化以拒绝不安全的提示可能导致 LLM 错误地拒绝回答良性提示，从而降低效用。我们建议使用 False Refusal Rate（FRR）来量化这种权衡。作为示例，我们引入了一个新的测试集来量化网络攻击有用性风险的 FRR。我们发现，许多 LLMs 能够与 “边界线” 良性请求成功地相符，同时拒绝大部分不安全的请求。最后，我们量化了 LLMs 在自动化核心网络安全任务（例如利用软件漏洞）方面的效用。这很重要，因为 LLMs 的进攻能力引起了极大的兴趣；我们通过为四个典型问题创建新的测试集来量化这一点。我们发现具有编码能力的模型优于无编码能力的模型，但 LLMs 在利用生成方面还需要进一步的工作。我们的代码是开源的，可以用于评估其他 LLMs。

Apr, 2024

S-Eval: 大型语言模型安全评估的自动化和自适应测试生成

在这项工作中，我们提出了 S-Eval，这是一个新的全面、多维度且开放的安全评估基准，通过训练专家测试的大型语言模型 Mt 与一系列测试选择策略相结合，自动构建了一个高质量的测试套件用于安全评估。该论文还介绍了一个四级的风险分类体系，覆盖了全面多维的安全风险，同时提供了灵活配置和适应新风险、攻击和模型的能力。S-Eval 在 20 个流行和代表性的大型语言模型上进行了广泛评估，结果表明相比现有的基准，S-Eval 可以更好地反映和提供大型语言模型的安全风险信息。

May, 2024

Do-Not-Answer: 评估 LLMs 中的保障措施的数据集

通过开发一个标注的数据集，本文研究了大型语言模型的危险能力评估，并展示了使用 BERT 类别分类器在自动安全评估中能够获得与 GPT-4 相媲美的结果。

Aug, 2023

警示：通过红队测试全面评估大型语言模型的安全性的综合基准

应用 ALERT 基准评估安全性，通过对大规模语言模型进行对抗测试，识别漏洞，改进并提高语言模型的整体安全性。

Apr, 2024

R-Judge：LLM 代理程序的安全风险意识基准测试

通过评估 R-Judge，本研究使用包含 162 个代理人交互记录、涵盖 7 个应用类别和 10 种风险类型的 27 个关键风险场景的基准测试，对 8 个常用语言模型进行了全面评估。最佳模型 GPT-4 在对风险评估得分方面为 72.29%，而人类得分为 89.38%，显示了提高语言模型对风险意识的潜力。此外，利用风险描述作为环境反馈显著提高了模型的性能，揭示了突出的安全风险反馈的重要性。最终，通过设计有效的安全分析技术和深入的案例研究，有助于判断安全风险并促进未来研究。

Jan, 2024

CHiSafetyBench：一份用于大型语言模型的中文分层安全基准评测

该论文介绍了 CHiSafetyBench，这是一个专门用于评估大型语言模型在中文情境中识别危险内容和拒绝回答危险问题能力的安全基准。通过该基准，作者验证了自动评估作为人工评估的替代的可行性，并对主流的中文语言模型进行了全面的自动安全评估。实验表明，不同模型在各个安全领域的性能存在差异，指示了所有模型在中国的安全能力方面有相当大的改进潜力。

Jun, 2024

构建安全负责的大语言模型 -- 一个综合框架

为了提高语言生成模型的安全性，我们引入了安全可靠的大型语言模型 SR$_{ext {LLM}}$，通过使用细致标注的数据集和多种方法来识别潜在的不安全内容，并生成无害的变体。经过对多个数据集的测试，我们观察到不安全内容的生成显著减少，同时在安全内容的生成方面也有明显的改进。我们的工作详细描述了 SR$_{ext {LLM}}$ 的微调过程，并通过社区参与来推动 LMM 的负责任推进。

Apr, 2024

RefuteBench：评估大型语言模型的反驳指令跟随

该研究论文介绍了大型语言模型在接受用户反馈方面的问题，并提出了一个包括问答、机器翻译和电子邮件写作等任务的综合评估基准 RefuteBench。研究发现，大型语言模型倾向于自身内部知识，并且在对话过程中逐渐遗忘用户的反馈，而回归到自己的回复，通过召回和重复提示的方式可以提高模型响应用户反馈的能力。

Feb, 2024