SafetyPrompts: 评估和改进大型语言模型安全性的开放数据集的系统综述
通过引入一个用于评估中文 LLM 安全性的数据集,我们扩展到其他两个场景,用于更好地识别有风险的提示拒绝的假阴性和假阳性示例,并提出了细化的每种风险类型的安全评估标准,为 LLM 响应的有害性进行手动注释和自动评估。我们在五个 LLM 上的实验表明,区域特定风险是最普遍的风险类型,是我们所研究的所有中文 LLM 的主要问题。
Feb, 2024
通过开发一个标注的数据集,本文研究了大型语言模型的危险能力评估,并展示了使用 BERT 类别分类器在自动安全评估中能够获得与 GPT-4 相媲美的结果。
Aug, 2023
我们建立了第一个多语言安全基准(XSafety)用于大型语言模型的开发和部署,在实验中发现所有的大型语言模型对非英语查询的不安全回复明显增多,为此我们提出了几种简单有效的提示方法,从而显著提高 ChatGPT 的多语言安全性。
Oct, 2023
为了进一步推动大型语言模型的安全部署,我们开发了一个中文 LLM 安全评估基准。我们的基准从八种典型的安全场景和六种更具挑战性的指令攻击等两个方面探索了 LLMs 的综合安全表现,并对 OpenAI GPT 系列和其他知名的中文 LLMs 等共 15 个 LLMs 进行了安全评估并分析了一些有趣的发现,公开发布了 100k 个增强测试用例和 LLMs 生成的响应。
Apr, 2023
开发大型语言模型的快速加速使得开源和开放获取的模型成为 ChatGPT 等专有模型的可行替代。然而,缺乏适当的引导和保障,大型语言模型容易遵循恶意指令、提供不安全建议和生成有害内容,这对企业和开发者来说是一个重大的安全风险。我们引入了 SimpleSafetyTests 作为一套新的测试套件,用于快速系统地鉴定此类重大安全风险。该测试套件包含 100 个测试提示,涵盖了大大多数应用中大型语言模型在五个危害方面应拒绝遵守的内容。我们测试了 11 个受欢迎的开源大型语言模型,并发现其中有几个存在重大的安全弱点。虽然一些大型语言模型没有给出任何不安全的回答,但我们测试的大多数模型在超过 20% 的情况下都会回答不安全,并且在极端情况下有超过 50% 的不安全回答。在系统提示中追加强调安全性的内容能够大大减少不安全回答的发生,但并不能完全阻止。我们建议开发者将此类系统提示作为防范重大安全风险的第一层防线。
Nov, 2023
通过使用多种提示策略,我们成功地减少了大型语言模型中的过度安全行为,这些策略包括使用 XSTest 数据集、交互提示、上下文提示以及少样本提示,从而使模型能够在拒绝不安全的输入的同时保持有用性。
May, 2024
以 SafetyBench 为基础,该研究设计了一个综合评估大型语言模型安全性的基准测试工具,包括 11435 个不同类别的问题,并能够提供两种语言(中文和英文)的评估结果,通过测试发现 GPT-4 在安全性方面相较于其他模型表现突出,但当前大型语言模型的安全性仍有提升空间。
Sep, 2023
为了提高语言生成模型的安全性,我们引入了安全可靠的大型语言模型 SR$_{ext {LLM}}$,通过使用细致标注的数据集和多种方法来识别潜在的不安全内容,并生成无害的变体。经过对多个数据集的测试,我们观察到不安全内容的生成显著减少,同时在安全内容的生成方面也有明显的改进。我们的工作详细描述了 SR$_{ext {LLM}}$ 的微调过程,并通过社区参与来推动 LMM 的负责任推进。
Apr, 2024
利用一个全面评估的在线安全分析方法基准,本研究揭示了现有在线安全分析方法的优势和局限性,为选择最合适的方法提供了有价值的见解,并探索了将多种方法相结合以提高在线安全分析效果的潜力。
Apr, 2024