微小的改进引发韧性：朝着高效的前缀模型抵御 LLM 红队行动

May, 2024

微小的改进引发韧性：朝着高效的前缀模型抵御 LLM 红队行动

Tiny Refinements Elicit Resilience: Toward Efficient Prefix-Model Against LLM Red-Teaming

Jiaxu Liu, Xiangyu Yin, Sihao Wu, Jianhong Wang, Meng Fang...

TL;DR通过介绍基于 LLM 的哨兵模型，该论文提出一种即插即用的前缀模块，通过添加少量的 (<30) 令牌有效地减少目标 LLM 输出中的有毒内容，克服参数效率和模型可访问性的限制。我们采用交错训练方案，使用近端策略优化 (PPO) 来动态优化红队和哨兵模型，并结合通过多智能体集中批判者启发的值头共享机制来管理代理之间的复杂相互作用。我们在文本到文本和文本到图像的广泛实验中证明了我们方法的有效性，即使处理像 Llama-2、GPT-3.5 和 Stable-Diffusion 这样的大型模型也能降低有毒输出，突显了我们框架在提升各种应用程序的安全性和稳健性方面的潜力。

Abstract

With the proliferation of red-teaming strategies for Large Language Models (LLMs), the deficiency in the literature about improving the safety and robustness of LLM defense strategies is becoming increasingly pronounced. This paper introduces the LLM-based \textbf{sentinel} model as a

red-teaming strategies llm-based sentinel model toxicity reduction interleaved training regimen safety and robustness

发现论文，激发创造

大型语言模型哨兵：通过 LLM 代理推进对抗鲁棒性

我们引入了一种名为 LLAMOS 的新型防御技术，通过净化输入到目标大型语言模型之前的对抗文本示例，以增强大型语言模型的对抗鲁棒性。我们的方法包括两个主要组成部分：a) 代理指示，可以模拟新的代理进行对抗防御，通过最小限度地更改字符来保持句子的原始含义，并防御攻击；b) 防御指导，提供修改干净或对抗性示例以确保有效防御和目标大型语言模型准确输出的策略。通过在开源和闭源大型语言模型上进行广泛实验，我们的方法可以有效抵御对抗性攻击，从而提高对抗鲁棒性。

May, 2024

学习大型语言模型上多样化的攻击方法，用于鲁棒性红队和安全优化

使用 GFlowNet fine-tuning 和二次平滑阶段对攻击者模型进行训练，生成多样且有效的攻击触发词，攻击方法对多种目标大语言模型有效，且通过基于强化学习的红队方法生成的红队训练触发词进行模型安全调优可有效防护。

May, 2024

通过话语链安全对齐红队大型语言模型

基于大型语言模型的安全性评估与对抗、生成有害回应的问题以及安全对齐的方法和模型研究。

Aug, 2023

大型语言模型的红队和防御攻击指令生成

通过综合手动和自动方法生成攻击提示的综合方法，提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示，并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性；在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性，并发布了一系列攻击提示数据集（SAP）以便更多大型语言模型的安全评估和增强。

Oct, 2023

语言模型不对齐：参数化红队行动揭示隐藏的伤害和偏见

通过参数化红队技术与非对齐性使得 Large Language Models (LLMs) 的安全性得到破坏，揭示模型中存在的潜在有害信息和偏见。

Oct, 2023

流之守望者：在软件定义网络中释放大型语言模型进行动态包分类 -- 位置论文

提出计划在网络安全领域探索大型语言模型的适用性，创建名为 Sentinel 的 LLM 用于分析网络数据包内容并评估威胁级别。

Feb, 2024

警示：通过红队测试全面评估大型语言模型的安全性的综合基准

应用 ALERT 基准评估安全性，通过对大规模语言模型进行对抗测试，识别漏洞，改进并提高语言模型的整体安全性。

Apr, 2024

使用语言模型对抗语言模型检测器

本文研究了如何攻击已有的机器文字生成检测算法，并验证了所有被测试的检测器的鲁棒性。结果表明，开发更加鲁棒的机器文字检测系统有着迫切的需求。

May, 2023

毒性检测自由

使用 LLMs 自身提取的信息，通过查找替代拒绝响应和首个响应标记的 logits 分布中的有毒提示之间的显著差距，我们提出了一种新的毒性侦测模型 MULI，它不需要训练或额外计算成本，并基于首个响应标记的 logits 构建了一个更强大的检测器，其性能超过了现有技术下的多个指标。

May, 2024

揭示大型语言模型中的隐含毒性

大型语言模型 (LLMs) 的开放性和出色能力可能导致新的安全问题，在恶意利用中容易产生很难通过零样本提示检测出来的多样化的内隐性毒性输出。此外，我们提出了一种基于强化学习 (RL) 的攻击方法，进一步诱发 LLMs 中的内隐性毒性。例如，RL - 调优后的 LLaMA-13B 模型在 BAD 和 Davinci003 上分别达到 90.04% 和 62.85% 的攻击成功率。我们的研究结果表明，LLMs 在生成不可检测的内隐性毒性输出方面构成了重大威胁。我们进一步展示，对我们攻击方法生成的示例进行毒性分类器的微调可以有效增强其检测 LLM 生成的内隐性毒性语言的能力。

Nov, 2023