减轻大型语言模型中的夸大安全性

May, 2024

减轻大型语言模型中的夸大安全性

Mitigating Exaggerated Safety in Large Language Models

Ruchi Bhalani, Ruchira Ray

TL;DR通过使用多种提示策略，我们成功地减少了大型语言模型中的过度安全行为，这些策略包括使用 XSTest 数据集、交互提示、上下文提示以及少样本提示，从而使模型能够在拒绝不安全的输入的同时保持有用性。

Abstract

As the popularity of large language models (LLMs) grow, combining model safety with utility becomes increasingly important. The challenge is making sure that LLMs can recognize and decline dangerous prompts without sacrificing their ability to be helpful. The problem of "→

large language models exaggerated safety xstest dataset few-shot prompting decision-making processes

发现论文，激发创造

从再现性伤害到服务质量伤害：一项关于 “羊驼 2” 安全保障的案例研究

通过对 Llama 2 的案例进行研究，评估了安全措施对已减轻的偏见的效果，并发现安全与有益性的权衡在某些人群中更加明显，可能对边缘化群体造成服务质量损害。

Mar, 2024

SimpleSafetyTests: 大型语言模型中关键安全风险的测试套件

开发大型语言模型的快速加速使得开源和开放获取的模型成为 ChatGPT 等专有模型的可行替代。然而，缺乏适当的引导和保障，大型语言模型容易遵循恶意指令、提供不安全建议和生成有害内容，这对企业和开发者来说是一个重大的安全风险。我们引入了 SimpleSafetyTests 作为一套新的测试套件，用于快速系统地鉴定此类重大安全风险。该测试套件包含 100 个测试提示，涵盖了大大多数应用中大型语言模型在五个危害方面应拒绝遵守的内容。我们测试了 11 个受欢迎的开源大型语言模型，并发现其中有几个存在重大的安全弱点。虽然一些大型语言模型没有给出任何不安全的回答，但我们测试的大多数模型在超过 20% 的情况下都会回答不安全，并且在极端情况下有超过 50% 的不安全回答。在系统提示中追加强调安全性的内容能够大大减少不安全回答的发生，但并不能完全阻止。我们建议开发者将此类系统提示作为防范重大安全风险的第一层防线。

Nov, 2023

用于评估大型语言模型中的保障措施的中文数据集

通过引入一个用于评估中文 LLM 安全性的数据集，我们扩展到其他两个场景，用于更好地识别有风险的提示拒绝的假阴性和假阳性示例，并提出了细化的每种风险类型的安全评估标准，为 LLM 响应的有害性进行手动注释和自动评估。我们在五个 LLM 上的实验表明，区域特定风险是最普遍的风险类型，是我们所研究的所有中文 LLM 的主要问题。

Feb, 2024

通过可控的大型语言模型实现安全性和帮助性平衡的响应

我们提出通过在大型语言模型中控制安全性和有益性来平衡多种用例，采用训练无关和微调方法来分析在语言模型中控制安全性和有益性的挑战，并通过实验验证了我们的方法可以控制模型并提供帮助。

Apr, 2024

TroubleLLM: 与红队专家对齐

通过提出的第一个 LLM 模型 TroubleLLM 在 LLM 安全问题上生成可控的测试提示，广泛的实验和人工评估表明 TroubleLLM 在生成质量和生成可控性上的优越性。

Feb, 2024

SLM 作为守护者：先驱性地利用小型语言模型进行人工智能安全

利用较小的大语言模型实现有害查询检测和安全响应，通过多任务学习机制融合两个任务到一个模型里，效果在公开的大语言模型上表现相当或超过有害查询检测和安全响应的性能。

May, 2024

个性化语言模型中的安全性 - 效用权衡探索

大型语言模型（LLMs）在日常应用中变得越来越普遍，因此需要确保它们在各种用户群体之间公正地运行。本文揭示了 LLMs 存在个性化偏差的问题，也就是当 LLMs 根据用户的身份进行个性化设置时，它们的性能会受到影响。我们通过评估 LLMs 在安全性和效用两个维度上的表现来量化个性化偏差。结论发现，不同的 LLMs 在安全性和效用的权衡方面存在显著的性能差异，这取决于用户的身份。最后，我们探讨了一些使用偏好调优和基于提示的防御策略来减轻个性化偏差的方法。

Jun, 2024

SafetyPrompts: 评估和改进大型语言模型安全性的开放数据集的系统综述

系统回顾了用于评估和改进大型语言模型安全性的开放数据集，研究了 102 个数据集，并发现了可用数据集的使用模式和趋势，以及数据集覆盖的缺口和目前评估实践的局限性。

Apr, 2024

语言障碍：剖析 LLMs 在多语言环境中的安全挑战

本文探讨大型语言模型在多语言环境中的安全挑战，并讨论缓解此类问题的方法。通过比较先进的语言模型对高资源语言和低资源语言下恶意提示的响应，我们发现低资源语言中的恶意提示往往导致不安全的回答，并且语言模型对低资源语言的恶意提示产生更多的无关回答。此外，我们发现提高模型对高资源语言的训练并没有带来显著改善，表明跨语言对齐的瓶颈在于预训练阶段。我们的发现凸显了跨语言大型语言模型安全的挑战，并希望这些发现能指导未来的研究。

Jan, 2024

所有语言都重要：关于大型语言模型的多语言安全性

我们建立了第一个多语言安全基准（XSafety）用于大型语言模型的开发和部署，在实验中发现所有的大型语言模型对非英语查询的不安全回复明显增多，为此我们提出了几种简单有效的提示方法，从而显著提高 ChatGPT 的多语言安全性。

Oct, 2023