通过微调在 GPT-4 中移除 RLHF 保护

Nov, 2023

Removing RLHF Protections in GPT-4 via Fine-Tuning

Qiusi Zhan, Richard Fang, Rohan Bindu, Akul Gupta, Tatsunori Hashimoto...

TL;DR精细调整大型语言模型（LLM）的 RLHF 保护可能性，使用较弱模型生成的训练数据可以有效地移除 RLHF 保护，但不会降低其在非审查输出上的有用性，表明对 LLMs 的保护需要进一步研究。

Abstract

As large language models (LLMs) have increased in their capabilities, so does their potential for dual use. To reduce harmful outputs, produces and vendors of LLMs have used reinforcement learning with human feedback

large language models reinforcement learning with human feedback fine-tuning rlhf protections research on protections on llms

发现论文，激发创造

解除 GPT4 的过滤器

本文介绍了一种将经过强化学习与人类反馈（RLHF）训练的 GPT4 模型，操作以回到未经 RLHF 处理的行为，从而有效地去除模型在 RLHF 期间学习到的所有安全机制，特别是当 GPT4 在没有 RLHF 的情况下运行时，它失去了所有的抑制力，并且能够以仅有的前几个单词就生成极不适宜的内容。

Feb, 2024

理解 RLHF 对 LLM 泛化和多样性的影响

利用强化学习从人类反馈中对大型语言模型（LLMs）进行微调，该方法已在一些最广泛使用的人工智能模型中得到应用，如 OpenAI 的 ChatGPT、Anthropic 的 Claude 或 Meta 的 LLaMA-2。我们通过广泛的分析探讨了这个过程的每个阶段（即受监督的微调（SFT）、奖励建模和强化学习从人类反馈）对于两个关键属性的影响：越界分布的泛化和输出的多样性。我们发现，相对于受监督的微调，强化学习从人类反馈更好地泛化到新的输入，尤其是在训练和测试之间的分布差异越大时。然而，相比于受监督的微调，强化学习从人类反馈显著降低了输出的多样性，这意味着在当前 LLM 微调方法中存在泛化和多样性之间的权衡。我们的研究结果为特定应用提供了微调方法的指导，并表明有必要改进泛化和多样性之间的权衡。

Oct, 2023

平衡增强、无害性和通用能力：通过直接 RLHF 提高对话式 LLMs

通过采用无害的来自人类反馈的强化学习方法，我们绕过了监督微调，直接应用于 Mistral，从而创建了 Mistral-Plus，它不仅保留了基础模型的通用能力，还显著增强了其对话能力，并大幅减少了有毒输出的生成。

Mar, 2024

大型语言模型的性能误区揭秘：微调与失败？

研究探讨了大型语言模型在细调、提取上下文数据和性能增强方面的影响，以及它们在多个领域的应用情况，并指出了细调模型在特定任务中性能下降的问题。

Jun, 2024

免疫有害微调攻击

通过提出 “免疫条件” 作为对抗有害微调攻击的一种形式框架，并实验性地使用对抗性损失示范对 LLama2-7b-chat 进行免疫，我们综合了不同的研究方向，以预防有害微调攻击。

Feb, 2024

使用生成对抗反馈来微调语言模型

研究探讨了使用生成对抗反馈的强化学习（RLGAF）方法，以弥补人类评估者的专业知识和生产力限制并帮助对齐大型语言模型（LLMs）的输出，从而为进一步实现 AI 对准提供了前景。

May, 2023

大型语言模型可以作为良好的隐私保护学习者

利用特定域数据对大型语言模型进行微调时，存在个人身份信息敏感度的问题。为了解决这一挑战，我们引入了隐私保护语言模型（PPLM），通过有效注入特定领域知识来保护数据隐私。我们的工作提供了模型设计理论分析，并详细介绍了诸如语料库整理、基于惩罚性失真的训练损失和基于指令的微调等技术。在各种数据集和场景下的广泛实验证实了我们方法的有效性。特别是，正负样本指令微调成为一种有潜力的方法，可以在增强模型知识的同时保护私人数据。我们的工作突显了大型语言模型作为强大隐私保护学习器的潜力。

Oct, 2023

细粒度人类反馈为语言模型训练提供更好的奖励

本文介绍了 Fine-Grained RLHF 框架，可以对包含一定程度错误或无效信息的长文本提供细化的人类反馈进行训练，并实验表明使用该框架能够改善语言模型生成过程中生成虚假、有毒、无关的输出等问题。

Jun, 2023

Janus 界面：大型语言模型中的微调如何放大隐私风险

利用微小的个人可识别信息数据集完成 GPT-3.5 的微调，可以导致大量隐藏的个人信息被揭示。

Oct, 2023

SuperHF：基于人类反馈的监督式迭代学习

基于大型语言模型对齐的一种新方法 SuperHF，旨在解决安全性、人类价值的对齐以及训练稳定性方面的挑战。SuperHF 结合了 Supervised Fine-Tuning 和 Reinforcement Learning from Human Feedback 的优点，并通过替换 PPO 算法和引入 KL divergence 先验，提出了一种新的训练方法。实验结果表明，SuperHF 在训练目标、奖励优化和模型性能等方面表现优于基于 PPO 的 RLHF，具有竞争力的语言模型对齐技术。

Oct, 2023