通过话语链安全对齐红队大型语言模型
通过参数化红队技术与非对齐性使得 Large Language Models (LLMs) 的安全性得到破坏,揭示模型中存在的潜在有害信息和偏见。
Oct, 2023
使用红队技术,在基于语言模型的聊天机器人中生成测试用例以检测有害行为,并训练分类器检测模型产生的攻击性内容,从而发现数万条攻击性回复。这是一种在影响用户之前找到和修复各种不良行为的工具。
Feb, 2022
LLM 对话共指中的安全性漏洞研究,包括创建了一个包含 1,400 个问题的数据集,并在五种常用的开源 LLM 模型上进行了评估,结果表明在多轮共指安全攻击下,LLaMA2-Chat-7b 模型具有最高的攻击成功率为 56%,而 Mistral-7B-Instruct 模型具有最低的攻击成功率为 13.9%。
Jun, 2024
通过建立全面的 1445 个有害问题的评估数据集,本研究对 11 个不同的大型语言模型和多模式大型语言模型进行了广泛的试验,发现 GPT-4 和 GPT-4V 相对于开源的大型语言模型和多模式大型语言模型表现出更好的恶意入侵攻击耐受性,而 Llama2 和 Qwen-VL-Chat 相对于其他开源模型表现出更高的鲁棒性,并且相对于文本恶意入侵攻击方法,视觉恶意入侵攻击方法的可迁移性相对有限。
Apr, 2024
通过推出一种推理时攻击框架,研究表明安全对齐也可能在对抗性操作下无意中促进有害结果,实验证明其能够提高预训练模型的有害程度并在大多数评估子集中取得最高有害率,从而强调重评估安全对齐后的开源语言模型的重要性。
Feb, 2024
提出了一种名为 MART(Multi-round Automatic Red-Teaming)的自动多轮红队方法,通过自动对抗性提示编写和安全响应生成,显著提高了红队的可扩展性和目标大型语言模型的安全性。
Nov, 2023
本文介绍了对语言模型进行红队测试的早期探索,尝试发现、测量并减少它们可能产生的潜在危害输出。在实验中发现,随着模型规模的扩大,使用人类反馈进行强化学习的模型难以被红队攻击,并提供数据集和方法说明以便进行共同探讨。
Aug, 2022
使用 GFlowNet fine-tuning 和二次平滑阶段对攻击者模型进行训练,生成多样且有效的攻击触发词,攻击方法对多种目标大语言模型有效,且通过基于强化学习的红队方法生成的红队训练触发词进行模型安全调优可有效防护。
May, 2024
通过使用多种提示策略,我们成功地减少了大型语言模型中的过度安全行为,这些策略包括使用 XSTest 数据集、交互提示、上下文提示以及少样本提示,从而使模型能够在拒绝不安全的输入的同时保持有用性。
May, 2024