SALAD-Bench: 大型语言模型的分层与综合安全评估基准

Feb, 2024

SALAD-Bench: 大型语言模型的分层与综合安全评估基准

SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models

Lijun Li, Bowen Dong, Ruohui Wang, Xuhao Hu, Wangmeng Zuo...

TL;DR大型语言模型（LLMs）的安全性评估是一个重要问题，该研究提出了一个名为 SALAD-Bench 的安全性基准，用于评估 LLMs 的攻击和防御方法，并通过广泛的实验验证 LLMs 对新兴威胁的抵抗力和现代防御策略的有效性。

Abstract

In the rapidly evolving landscape of large language models (LLMs), ensuring robust safety measures is paramount. To meet this crucial need, we propose \emph{SALAD-Bench}, a safety benchmark specifically designed

large language models safety benchmark evaluation attack defense

发现论文，激发创造

S-Eval: 大型语言模型安全评估的自动化和自适应测试生成

在这项工作中，我们提出了 S-Eval，这是一个新的全面、多维度且开放的安全评估基准，通过训练专家测试的大型语言模型 Mt 与一系列测试选择策略相结合，自动构建了一个高质量的测试套件用于安全评估。该论文还介绍了一个四级的风险分类体系，覆盖了全面多维的安全风险，同时提供了灵活配置和适应新风险、攻击和模型的能力。S-Eval 在 20 个流行和代表性的大型语言模型上进行了广泛评估，结果表明相比现有的基准，S-Eval 可以更好地反映和提供大型语言模型的安全风险信息。

May, 2024

警示：通过红队测试全面评估大型语言模型的安全性的综合基准

应用 ALERT 基准评估安全性，通过对大规模语言模型进行对抗测试，识别漏洞，改进并提高语言模型的整体安全性。

Apr, 2024

SafetyBench: 用多项选择题评估大型语言模型的安全性

以 SafetyBench 为基础，该研究设计了一个综合评估大型语言模型安全性的基准测试工具，包括 11435 个不同类别的问题，并能够提供两种语言（中文和英文）的评估结果，通过测试发现 GPT-4 在安全性方面相较于其他模型表现突出，但当前大型语言模型的安全性仍有提升空间。

Sep, 2023

CHiSafetyBench：一份用于大型语言模型的中文分层安全基准评测

该论文介绍了 CHiSafetyBench，这是一个专门用于评估大型语言模型在中文情境中识别危险内容和拒绝回答危险问题能力的安全基准。通过该基准，作者验证了自动评估作为人工评估的替代的可行性，并对主流的中文语言模型进行了全面的自动安全评估。实验表明，不同模型在各个安全领域的性能存在差异，指示了所有模型在中国的安全能力方面有相当大的改进潜力。

Jun, 2024

SORRY-Bench: 大型语言模型安全拒绝行为系统评估

评估大型语言模型识别和拒绝不安全用户请求的能力对于安全和符合政策的应用至关重要，SORRY-Bench 是我们提出的基准测试方法，改善了现有方法的三个局限，包括对不安全主题的细致分类、考虑语言特征和格式的偏差以及设计高效的自动化安全评估器。

Jun, 2024

BELLS: 未来证据高效安全评估的框架

该研究介绍了用于检测大型语言模型系统中的异常迹象的输入输出保护装置，提出了评估这些保护装置的基准测试，并实施并分享了第一个下一代架构测试，以及相应的数据集的交互式可视化。

Jun, 2024

MLLMGuard：多模态大型语言模型的多维安全评估套件

本文介绍了 MLLMGuard，一个针对 MLLMs 的多维安全评估套件，包括双语图文评估数据集、推理工具和轻量级评估器。通过对隐私、偏见、有毒性、真实性和合法性等五个重要安全维度进行全面评估，结果表明 MLLMs 在安全和责任方面仍有很长的路要走。

Jun, 2024

CyberSecEval 2: 大型语言模型的广泛网络安全评估套件

大型语言模型引入新的安全风险，但缺乏综合评估套件来衡量和减少这些风险。我们提出了 BenchmarkName，这是一个用于量化 LLM 安全风险和能力的新型基准。我们介绍了两个新领域的测试：提示注入和代码解释器滥用。我们评估了多种最先进的 LLMs，包括 GPT-4、Mistral、Meta Llama 3 70B-Instruct 和 Code Llama。我们的结果表明，消除攻击风险的条件仍然是一个尚未解决的问题；例如，所有测试模型在成功的提示注入测试中显示出 26% 到 41% 之间的结果。我们进一步引入了安全效用权衡：将 LLM 条件化以拒绝不安全的提示可能导致 LLM 错误地拒绝回答良性提示，从而降低效用。我们建议使用 False Refusal Rate（FRR）来量化这种权衡。作为示例，我们引入了一个新的测试集来量化网络攻击有用性风险的 FRR。我们发现，许多 LLMs 能够与 “边界线” 良性请求成功地相符，同时拒绝大部分不安全的请求。最后，我们量化了 LLMs 在自动化核心网络安全任务（例如利用软件漏洞）方面的效用。这很重要，因为 LLMs 的进攻能力引起了极大的兴趣；我们通过为四个典型问题创建新的测试集来量化这一点。我们发现具有编码能力的模型优于无编码能力的模型，但 LLMs 在利用生成方面还需要进一步的工作。我们的代码是开源的，可以用于评估其他 LLMs。

Apr, 2024

R-Judge：LLM 代理程序的安全风险意识基准测试

通过评估 R-Judge，本研究使用包含 162 个代理人交互记录、涵盖 7 个应用类别和 10 种风险类型的 27 个关键风险场景的基准测试，对 8 个常用语言模型进行了全面评估。最佳模型 GPT-4 在对风险评估得分方面为 72.29%，而人类得分为 89.38%，显示了提高语言模型对风险意识的潜力。此外，利用风险描述作为环境反馈显著提高了模型的性能，揭示了突出的安全风险反馈的重要性。最终，通过设计有效的安全分析技术和深入的案例研究，有助于判断安全风险并促进未来研究。

Jan, 2024

安全性：为网络安全咨询评估生成式大型语言模型

大型语言模型（LLMs）在网络安全应用中显示出潜力，但也因幻觉和缺乏真实性等问题导致信心下降。现有的基准测试提供了一般评估，但不能充分解决 LLMs 在网络安全特定任务中的实际应用方面的问题。为了填补这个空白，我们引入了 SECURE（安全提取、理解与推理评估）基准测试，该基准测试旨在评估 LLMs 在现实网络安全场景中的性能。SECURE 包括六个数据集，重点关注工业控制系统领域，以评估基于行业标准来源的知识提取、理解和推理。我们的研究评估了七种最先进的模型在这些任务上的表现，为改进 LLMs 作为网络咨询工具的可靠性提供了见解和建议。

May, 2024