警示:通过红队测试全面评估大型语言模型的安全性的综合基准
本文对大型语言模型(LLMs)中的风险评估问题进行了探讨,并重点研究了奖励模型在感知和分类不同类型风险时面临的挑战,通过使用 Anthropic Red 团队的数据集,对信息风险、恶意用途和歧视 / 仇恨内容等主要风险类别进行了分析,研究结果表明 LLMs 倾向于认为信息风险较少有害,并通过特殊开发的回归模型对此进行了确认,此外,研究还揭示了 LLMs 在信息风险场景中对风险反应较不严格,强调了 LLM 风险评估中的关键安全问题以及对改进人工智能安全措施的需求。
Mar, 2024
通过提出的第一个 LLM 模型 TroubleLLM 在 LLM 安全问题上生成可控的测试提示,广泛的实验和人工评估表明 TroubleLLM 在生成质量和生成可控性上的优越性。
Feb, 2024
通过参数化红队技术与非对齐性使得 Large Language Models (LLMs) 的安全性得到破坏,揭示模型中存在的潜在有害信息和偏见。
Oct, 2023
通过引入一个用于评估中文 LLM 安全性的数据集,我们扩展到其他两个场景,用于更好地识别有风险的提示拒绝的假阴性和假阳性示例,并提出了细化的每种风险类型的安全评估标准,为 LLM 响应的有害性进行手动注释和自动评估。我们在五个 LLM 上的实验表明,区域特定风险是最普遍的风险类型,是我们所研究的所有中文 LLM 的主要问题。
Feb, 2024
为了提高语言生成模型的安全性,我们引入了安全可靠的大型语言模型 SR$_{ext {LLM}}$,通过使用细致标注的数据集和多种方法来识别潜在的不安全内容,并生成无害的变体。经过对多个数据集的测试,我们观察到不安全内容的生成显著减少,同时在安全内容的生成方面也有明显的改进。我们的工作详细描述了 SR$_{ext {LLM}}$ 的微调过程,并通过社区参与来推动 LMM 的负责任推进。
Apr, 2024
大型语言模型 (LLMs) 的部署与安全性及可靠性密切相关,然而它们在引入的同时也伴随着固有的风险,包括偏见、潜在的不安全行为、数据集污染、不可解释性、幻觉和非可重复性,为了避免潜在的危害,本研究探讨了部署 LLMs 所面临的风险,并评估了目前实施防护和模型对齐技术的方法,从固有和外在偏见评估方法入手,并讨论了公平度度量方法,还探讨了能够进行现实世界行为的主动型 LLMs 的安全性和可靠性,强调了可测试性、故障保护和情境意识的需求,还提出了保护 LLMs 的技术策略,包括操作在外部、次要和内部层次的分层保护模型,突出系统提示、检索增强生成 (RAG) 架构以及最小化偏见和保护隐私的技术,有效的防护设计要求深入理解 LLMs 的预期用例、相关法规和伦理因素,在精确性和隐私等竞争需求之间取得平衡仍然是一个持续挑战,本研究强调了持续研究和开发的重要性,以确保 LLMs 在实际应用中的安全和负责任使用。
Jun, 2024
开发大型语言模型的快速加速使得开源和开放获取的模型成为 ChatGPT 等专有模型的可行替代。然而,缺乏适当的引导和保障,大型语言模型容易遵循恶意指令、提供不安全建议和生成有害内容,这对企业和开发者来说是一个重大的安全风险。我们引入了 SimpleSafetyTests 作为一套新的测试套件,用于快速系统地鉴定此类重大安全风险。该测试套件包含 100 个测试提示,涵盖了大大多数应用中大型语言模型在五个危害方面应拒绝遵守的内容。我们测试了 11 个受欢迎的开源大型语言模型,并发现其中有几个存在重大的安全弱点。虽然一些大型语言模型没有给出任何不安全的回答,但我们测试的大多数模型在超过 20% 的情况下都会回答不安全,并且在极端情况下有超过 50% 的不安全回答。在系统提示中追加强调安全性的内容能够大大减少不安全回答的发生,但并不能完全阻止。我们建议开发者将此类系统提示作为防范重大安全风险的第一层防线。
Nov, 2023
为了进一步推动大型语言模型的安全部署,我们开发了一个中文 LLM 安全评估基准。我们的基准从八种典型的安全场景和六种更具挑战性的指令攻击等两个方面探索了 LLMs 的综合安全表现,并对 OpenAI GPT 系列和其他知名的中文 LLMs 等共 15 个 LLMs 进行了安全评估并分析了一些有趣的发现,公开发布了 100k 个增强测试用例和 LLMs 生成的响应。
Apr, 2023
使用红队技术,在基于语言模型的聊天机器人中生成测试用例以检测有害行为,并训练分类器检测模型产生的攻击性内容,从而发现数万条攻击性回复。这是一种在影响用户之前找到和修复各种不良行为的工具。
Feb, 2022