Do-Not-Answer: 评估 LLMs 中的保障措施的数据集

Aug, 2023

Do-Not-Answer: 评估 LLMs 中的保障措施的数据集

Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs

Yuxia Wang, Haonan Li, Xudong Han, Preslav Nakov, Timothy Baldwin

TL;DR通过开发一个标注的数据集，本文研究了大型语言模型的危险能力评估，并展示了使用 BERT 类别分类器在自动安全评估中能够获得与 GPT-4 相媲美的结果。

Abstract

With the rapid evolution of large language models (LLMs), new and hard-to-predict harmful capabilities are emerging. This requires developers to be able to identify risks through the evaluation of "dangerous capabilitie

large language models dangerous capabilities safeguards llm evaluation bert-like classifiers

发现论文，激发创造

用于评估大型语言模型中的保障措施的中文数据集

通过引入一个用于评估中文 LLM 安全性的数据集，我们扩展到其他两个场景，用于更好地识别有风险的提示拒绝的假阴性和假阳性示例，并提出了细化的每种风险类型的安全评估标准，为 LLM 响应的有害性进行手动注释和自动评估。我们在五个 LLM 上的实验表明，区域特定风险是最普遍的风险类型，是我们所研究的所有中文 LLM 的主要问题。

Feb, 2024

SafetyPrompts: 评估和改进大型语言模型安全性的开放数据集的系统综述

系统回顾了用于评估和改进大型语言模型安全性的开放数据集，研究了 102 个数据集，并发现了可用数据集的使用模式和趋势，以及数据集覆盖的缺口和目前评估实践的局限性。

Apr, 2024

警示：通过红队测试全面评估大型语言模型的安全性的综合基准

应用 ALERT 基准评估安全性，通过对大规模语言模型进行对抗测试，识别漏洞，改进并提高语言模型的整体安全性。

Apr, 2024

SLM 作为守护者：先驱性地利用小型语言模型进行人工智能安全

利用较小的大语言模型实现有害查询检测和安全响应，通过多任务学习机制融合两个任务到一个模型里，效果在公开的大语言模型上表现相当或超过有害查询检测和安全响应的性能。

May, 2024

安全可靠的 LLM 检测器：实施、应用和局限性

为了应对大规模语言模型的各种风险以及提供有效的人工智能治理，我们致力于创建和应用一套迅速、可靠的检测器模型，旨在识别各种有害输出，并探讨了其发展中的挑战和未来工作。

Mar, 2024

MLLMGuard：多模态大型语言模型的多维安全评估套件

本文介绍了 MLLMGuard，一个针对 MLLMs 的多维安全评估套件，包括双语图文评估数据集、推理工具和轻量级评估器。通过对隐私、偏见、有毒性、真实性和合法性等五个重要安全维度进行全面评估，结果表明 MLLMs 在安全和责任方面仍有很长的路要走。

Jun, 2024

中国大型语言模型的安全评估

为了进一步推动大型语言模型的安全部署，我们开发了一个中文 LLM 安全评估基准。我们的基准从八种典型的安全场景和六种更具挑战性的指令攻击等两个方面探索了 LLMs 的综合安全表现，并对 OpenAI GPT 系列和其他知名的中文 LLMs 等共 15 个 LLMs 进行了安全评估并分析了一些有趣的发现，公开发布了 100k 个增强测试用例和 LLMs 生成的响应。

Apr, 2023

揭示大型语言模型的安全漏洞

通过引入包含对抗例子（以问题形式）的独特数据集 AttaQ，本文评估了各种模型在其面前的脆弱性，并通过应用专业的聚类技术自动识别和命名脆弱的语义区域，以增强对模型弱点的评估，从而促进其安全机制和整体可靠性的有针对性改进。

Nov, 2023

SORRY-Bench: 大型语言模型安全拒绝行为系统评估

评估大型语言模型识别和拒绝不安全用户请求的能力对于安全和符合政策的应用至关重要，SORRY-Bench 是我们提出的基准测试方法，改善了现有方法的三个局限，包括对不安全主题的细致分类、考虑语言特征和格式的偏差以及设计高效的自动化安全评估器。

Jun, 2024

揭示和提升数据可信度：用于训练无害语言模型的数据集研究

本研究专注于评估数据集的可信度，鉴定标签错误，并评估噪声标签对语言数据的影响，特别关注不安全评论和对话分类，通过直接修复标签错误来显著提高数据的可信度和下游学习性能，说明清理现有的真实世界数据集的重要性。

Nov, 2023