重新思考在微调基础模型时的无害拒绝

ICLRJun, 2024

重新思考在微调基础模型时的无害拒绝

Rethinking harmless refusals when fine-tuning foundation models

Florin Pop, Judd Rosenblatt, Diogo Schwerz de Lucena, Michael Vaiana

TL;DR通过研究大型语言模型（LLMs）中微调的程度，该论文探讨了微调是否有效地缓解了不良行为，还是仅仅掩盖了它。研究采用逼真的角色扮演实验，通过观察模型在微调后的反应动态来评估结果。研究发现了一种普遍现象 —— 以推理为基础的欺骗，其中模型要么停止产生推理痕迹，要么产生看似道德的推理痕迹，却掩盖了最终输出的不道德性质。此外，论文还比较了响应策略（礼貌拒绝与明确反驳）在多轮交互输出中抑制不良行为发生的效果。研究结果表明，明确反驳在阻止不良输出的持续以及减少以推理为基础的欺骗方面明显优于礼貌拒绝，挑战了当前模型微调的做法。因此，本论文的两个关键贡献是（1）定义和研究了以推理为基础的欺骗，一种新类型的隐藏行为，（2）证明了明确反驳比拒绝提供了更强大的对抗有害请求的响应模型，从而强调了在微调方法中重新考虑响应策略的必要性。

Abstract

In this paper, we investigate the degree to which fine-tuning in Large Language Models (LLMs) effectively mitigates versus merely conceals undesirable behavior. Through the lens of semi-realistic role-playing exercises designed to elicit such behaviors, we explore the response dynamics

fine-tuning large language models (llms)reason-based deception response strategies model fine-tuning

发现论文，激发创造

语言模型中的拒绝是由单方向引发的

通过分析大型对话式语言模型中拒绝行为的机制，提出了一种解禁方法，并展示了如何通过了解模型内部来控制模型行为。

Jun, 2024

大型语言模型是推理教师

本研究提出了 Fine-tune-CoT 方法，该方法利用非常大的语言模型以生成推理样本并通过微调来教授较小的模型，从而在较小的模型中实现了大量的推理能力优化。

Dec, 2022

R-Tuning：教授大型语言模型拒绝未知问题

在本研究中，我们通过观察到以往的指导调优方法无论模型是否拥有相关知识都会强制其完成句子，从而导致大语言模型产生虚假事实的问题，提出了一种名为 R-Tuning 的全新方法。该方法通过首先确定参数化知识和指导调优数据之间的知识差距，然后基于知识交集构建拒绝感知数据，使大语言模型在回答超出其参数化知识范围内的问题时能够避免回答。实验结果表明，这种新的指导调优方法有效地提高了模型回答已知问题的能力，并避免了回答未知问题。此外，在应用于领域外数据集时，发现拒绝能力是一种可以推广到其他任务上的元技能。进一步分析令人惊讶地发现，学习不确定性比基于不确定性的测试具有更好的估计不确定性的能力。

Nov, 2023

大型语言模型中忠实思维链路推理的困难性

大语言模型（LLM）在关键领域，如医疗保健中得到越来越多的应用，为了确保这些模型生成的链式思维（CoT）推理能够忠实地捕捉其基本行为，我们探索了三种常用方法 —— 上下文学习、微调和激活编辑 —— 来指导 LLM 的行为，以提高 CoT 推理的准确性，然而我们的实证分析表明：这些方法在提高 CoT 推理的准确性方面取得的成果有限，只在受控情境中略有性能提升，激活编辑几乎没有成功，而微调和上下文学习的改进效果仅在部分推理和真实问答评估中表现出来，总结来说，我们的工作强调了从 LLMs 中获取准确 CoT 推理的困难性，提示当前的方法可能无法解决这一复杂挑战。

Jun, 2024

RefuteBench：评估大型语言模型的反驳指令跟随

该研究论文介绍了大型语言模型在接受用户反馈方面的问题，并提出了一个包括问答、机器翻译和电子邮件写作等任务的综合评估基准 RefuteBench。研究发现，大型语言模型倾向于自身内部知识，并且在对话过程中逐渐遗忘用户的反馈，而回归到自己的回复，通过召回和重复提示的方式可以提高模型响应用户反馈的能力。

Feb, 2024

ReFT: 强化微调推理

通过增强学习和在线增强学习的组合，提出了一种名为 ReFT 的简单而有效的方法来增强大型语言模型在推理中的泛化能力，以数学问题求解为例，通过学习多个标注的推理路径，显著提高了性能。

Jan, 2024

学会伪装：通过多智能体攻击者 - 伪装者游戏避免 LLM 的拒绝回应

通过多智能体进攻 - 伪装博弈方法弱化大模型的防御机制，使其能够安全回应攻击者并隐藏防御意图。

Apr, 2024

自主探索避免陷阱：以细粒度奖励提升语言模型的推理能力

通过自主探索（Self-Explore）的方法，研究自动增强规划模型（LLMs）的推理能力，并与监督式微调相比，在 GSM8K 和 MATH 测试集上分别平均取得 11.57％和 2.89％的改进。

Apr, 2024

学会拒绝：通过知识范围限制和拒绝机制提升大型语言模型的可控性和可靠性

大型语言模型中存在问题的幻觉，通过拒绝机制和知识库来提高模型的可控性和可靠性。

Nov, 2023

REFINER: 在中间表示上进行推理反馈

以 REINFER 为框架，使用自动化反馈的机器模型来有针对性地改善语言模型在推理任务中的表现。实验证明，在三个不同的推理任务中，REFINER 表现明显优于同等规模的基线语言模型。

Apr, 2023