通过微调在 GPT-4 中移除 RLHF 保护
本文介绍了一种将经过强化学习与人类反馈(RLHF)训练的 GPT4 模型,操作以回到未经 RLHF 处理的行为,从而有效地去除模型在 RLHF 期间学习到的所有安全机制,特别是当 GPT4 在没有 RLHF 的情况下运行时,它失去了所有的抑制力,并且能够以仅有的前几个单词就生成极不适宜的内容。
Feb, 2024
利用强化学习从人类反馈中对大型语言模型(LLMs)进行微调,该方法已在一些最广泛使用的人工智能模型中得到应用,如 OpenAI 的 ChatGPT、Anthropic 的 Claude 或 Meta 的 LLaMA-2。我们通过广泛的分析探讨了这个过程的每个阶段(即受监督的微调(SFT)、奖励建模和强化学习从人类反馈)对于两个关键属性的影响:越界分布的泛化和输出的多样性。我们发现,相对于受监督的微调,强化学习从人类反馈更好地泛化到新的输入,尤其是在训练和测试之间的分布差异越大时。然而,相比于受监督的微调,强化学习从人类反馈显著降低了输出的多样性,这意味着在当前 LLM 微调方法中存在泛化和多样性之间的权衡。我们的研究结果为特定应用提供了微调方法的指导,并表明有必要改进泛化和多样性之间的权衡。
Oct, 2023
通过采用无害的来自人类反馈的强化学习方法,我们绕过了监督微调,直接应用于 Mistral,从而创建了 Mistral-Plus,它不仅保留了基础模型的通用能力,还显著增强了其对话能力,并大幅减少了有毒输出的生成。
Mar, 2024
通过提出 “免疫条件” 作为对抗有害微调攻击的一种形式框架,并实验性地使用对抗性损失示范对 LLama2-7b-chat 进行免疫,我们综合了不同的研究方向,以预防有害微调攻击。
Feb, 2024
研究探讨了使用生成对抗反馈的强化学习(RLGAF)方法,以弥补人类评估者的专业知识和生产力限制并帮助对齐大型语言模型(LLMs)的输出,从而为进一步实现 AI 对准提供了前景。
May, 2023
利用特定域数据对大型语言模型进行微调时,存在个人身份信息敏感度的问题。为了解决这一挑战,我们引入了隐私保护语言模型(PPLM),通过有效注入特定领域知识来保护数据隐私。我们的工作提供了模型设计理论分析,并详细介绍了诸如语料库整理、基于惩罚性失真的训练损失和基于指令的微调等技术。在各种数据集和场景下的广泛实验证实了我们方法的有效性。特别是,正负样本指令微调成为一种有潜力的方法,可以在增强模型知识的同时保护私人数据。我们的工作突显了大型语言模型作为强大隐私保护学习器的潜力。
Oct, 2023
本文介绍了 Fine-Grained RLHF 框架,可以对包含一定程度错误或无效信息的长文本提供细化的人类反馈进行训练,并实验表明使用该框架能够改善语言模型生成过程中生成虚假、有毒、无关的输出等问题。
Jun, 2023
基于大型语言模型对齐的一种新方法 SuperHF,旨在解决安全性、人类价值的对齐以及训练稳定性方面的挑战。SuperHF 结合了 Supervised Fine-Tuning 和 Reinforcement Learning from Human Feedback 的优点,并通过替换 PPO 算法和引入 KL divergence 先验,提出了一种新的训练方法。实验结果表明,SuperHF 在训练目标、奖励优化和模型性能等方面表现优于基于 PPO 的 RLHF,具有竞争力的语言模型对齐技术。
Oct, 2023