语言模型中的拒绝是由单方向引发的

Jun, 2024

语言模型中的拒绝是由单方向引发的

Refusal in Language Models Is Mediated by a Single Direction

Andy Arditi, Oscar Obeso, Aaquib Syed, Daniel Paleka, Nina Rimsky...

TL;DR通过分析大型对话式语言模型中拒绝行为的机制，提出了一种解禁方法，并展示了如何通过了解模型内部来控制模型行为。

Abstract

conversational large language models are fine-tuned for both instruction-following and safety, resulting in models that obey benign requests but refuse harmful ones. While this refusal behavior is widespread acro

conversational large language models refusal behavior safety fine-tuning methods white-box jailbreak method model behavior

发现论文，激发创造

黑盒生成语言模型中的提示拒绝预测

通过黑盒攻击聊天 GPT 并手动标记其响应构建了一个拒绝分类器，进而基于这个分类器和 Quora Insincere 问题数据集训练了一个提示分类器，能预测 ChatGPT 是否拒绝一个给定的问题。

Jun, 2023

重新思考在微调基础模型时的无害拒绝

通过研究大型语言模型（LLMs）中微调的程度，该论文探讨了微调是否有效地缓解了不良行为，还是仅仅掩盖了它。研究采用逼真的角色扮演实验，通过观察模型在微调后的反应动态来评估结果。研究发现了一种普遍现象 —— 以推理为基础的欺骗，其中模型要么停止产生推理痕迹，要么产生看似道德的推理痕迹，却掩盖了最终输出的不道德性质。此外，论文还比较了响应策略（礼貌拒绝与明确反驳）在多轮交互输出中抑制不良行为发生的效果。研究结果表明，明确反驳在阻止不良输出的持续以及减少以推理为基础的欺骗方面明显优于礼貌拒绝，挑战了当前模型微调的做法。因此，本论文的两个关键贡献是（1）定义和研究了以推理为基础的欺骗，一种新类型的隐藏行为，（2）证明了明确反驳比拒绝提供了更强大的对抗有害请求的响应模型，从而强调了在微调方法中重新考虑响应策略的必要性。

Jun, 2024

理解越狱成功：大型语言模型中潜空间动力学的研究

对话式大型语言模型的研究中发现，监狱破解技术可以绕过模型的安全保障，通过分析模型对不同类型的监狱破解输入的激活情况，发现可以从一类监狱破解中提取出能够减少其他类监狱破解效果的监狱破解向量，而这或许意味着不同类型的有效的监狱破解通过相似的内部机制来实现，通过研究有害特征抑制可能的共同机制，提供有利于开发更强大的监狱破解对策的实证证据，为深入理解语言模型中监狱破解动态打下基础。

Jun, 2024

抑制拒绝：通过破解抑制性拒绝来破解 LLM

利用 DSN 攻击对大型语言模型进行评估，通过集成评估方法有效地解决了常规评估方法中存在的限制问题。

Apr, 2024

学会拒绝：通过知识范围限制和拒绝机制提升大型语言模型的可控性和可靠性

大型语言模型中存在问题的幻觉，通过拒绝机制和知识库来提高模型的可控性和可靠性。

Nov, 2023

让模型回应：透过提示依赖的视角解释语言模型去毒化

通过使用特征归因方法，将几种受欢迎的脱敏方法应用于几种语言模型，并量化它们对结果模型的提示依赖性的影响，评估拟议反叙述微调的有效性并将其与驱动脱敏的强化学习进行比较，观察到两种方法之间的提示依赖性差异，尽管它们的脱敏表现类似。

Sep, 2023

学会伪装：通过多智能体攻击者 - 伪装者游戏避免 LLM 的拒绝回应

通过多智能体进攻 - 伪装博弈方法弱化大模型的防御机制，使其能够安全回应攻击者并隐藏防御意图。

Apr, 2024

OR-Bench：大型语言模型的拒绝过度基准

通过自动生成大规模的看似有害的提示，该研究提出了 OR-Bench，首个大规模的拒绝基准，用于度量 25 个热门 LLM 模型的过度拒绝。

May, 2024

通过强化学习驱动的查询优化增强大规模语言模型的能力和稳健性

提出了一种可转移且可插拔的框架，用于改进用户提示，提高大型语言模型的生成能力和鲁棒性，以产生更真实、良性和有用的响应。

Jul, 2024

大型语言模型中的过度臃肿导航

通过探索大型语言模型处理和确定查询的安全性的方式以及对有害单词的过度关注的因素，本研究发现模型内部存在着捷径，强调安全性的提示将加剧过度关注有害单词，并介绍了一种名为 Self-Contrastive Decoding (Self-CD) 的训练无关且模型不可知的策略来缓解这一现象，实证结果表明我们的方法平均拒绝率减少了 20%，对安全性几乎没有影响。

Jan, 2024