通过话语链安全对齐红队大型语言模型

Aug, 2023

通过话语链安全对齐红队大型语言模型

Red-Teaming Large Language Models using Chain of Utterances for Safety-Alignment

Rishabh Bhardwaj, Soujanya Poria

TL;DR基于大型语言模型的安全性评估与对抗、生成有害回应的问题以及安全对齐的方法和模型研究。

Abstract

Larger language models (LLMs) have taken the world by storm with their massive multi-tasking capabilities simply by optimizing over a next-word prediction objective. With the emergence of their properties and encoded knowledge, the risk of LLMs producing harmful outputs increases, maki

language models safety evaluation benchmark red-teaming harmful responses safety alignment

发现论文，激发创造

语言模型不对齐：参数化红队行动揭示隐藏的伤害和偏见

通过参数化红队技术与非对齐性使得 Large Language Models (LLMs) 的安全性得到破坏，揭示模型中存在的潜在有害信息和偏见。

Oct, 2023

警示：通过红队测试全面评估大型语言模型的安全性的综合基准

应用 ALERT 基准评估安全性，通过对大规模语言模型进行对抗测试，识别漏洞，改进并提高语言模型的整体安全性。

Apr, 2024

使用语言模型对语言模型进行红队测试

使用红队技术，在基于语言模型的聊天机器人中生成测试用例以检测有害行为，并训练分类器检测模型产生的攻击性内容，从而发现数万条攻击性回复。这是一种在影响用户之前找到和修复各种不良行为的工具。

Feb, 2022

CoSafe：评估多轮对话中大型语言模型安全性的共指

LLM 对话共指中的安全性漏洞研究，包括创建了一个包含 1,400 个问题的数据集，并在五种常用的开源 LLM 模型上进行了评估，结果表明在多轮共指安全攻击下，LLaMA2-Chat-7b 模型具有最高的攻击成功率为 56％，而 Mistral-7B-Instruct 模型具有最低的攻击成功率为 13.9％。

Jun, 2024

GPT-4V 挑战红队测试：是否能抵御 Uni/Multi-Modal 越狱攻击？

通过建立全面的 1445 个有害问题的评估数据集，本研究对 11 个不同的大型语言模型和多模式大型语言模型进行了广泛的试验，发现 GPT-4 和 GPT-4V 相对于开源的大型语言模型和多模式大型语言模型表现出更好的恶意入侵攻击耐受性，而 Llama2 和 Qwen-VL-Chat 相对于其他开源模型表现出更高的鲁棒性，并且相对于文本恶意入侵攻击方法，视觉恶意入侵攻击方法的可迁移性相对有限。

Apr, 2024

模拟非对齐：大规模语言模型的安全对齐可能适得其反！

通过推出一种推理时攻击框架，研究表明安全对齐也可能在对抗性操作下无意中促进有害结果，实验证明其能够提高预训练模型的有害程度并在大多数评估子集中取得最高有害率，从而强调重评估安全对齐后的开源语言模型的重要性。

Feb, 2024

MART：利用多轮自动红队测试提高 LLM 的安全性

提出了一种名为 MART（Multi-round Automatic Red-Teaming）的自动多轮红队方法，通过自动对抗性提示编写和安全响应生成，显著提高了红队的可扩展性和目标大型语言模型的安全性。

Nov, 2023

将红队化的语言模型减少危害：方法、扩展行为与经验教训

本文介绍了对语言模型进行红队测试的早期探索，尝试发现、测量并减少它们可能产生的潜在危害输出。在实验中发现，随着模型规模的扩大，使用人类反馈进行强化学习的模型难以被红队攻击，并提供数据集和方法说明以便进行共同探讨。

Aug, 2022

学习大型语言模型上多样化的攻击方法，用于鲁棒性红队和安全优化

使用 GFlowNet fine-tuning 和二次平滑阶段对攻击者模型进行训练，生成多样且有效的攻击触发词，攻击方法对多种目标大语言模型有效，且通过基于强化学习的红队方法生成的红队训练触发词进行模型安全调优可有效防护。

May, 2024

减轻大型语言模型中的夸大安全性

通过使用多种提示策略，我们成功地减少了大型语言模型中的过度安全行为，这些策略包括使用 XSTest 数据集、交互提示、上下文提示以及少样本提示，从而使模型能够在拒绝不安全的输入的同时保持有用性。

May, 2024