通过微调在 GPT-4 中移除 RLHF 保护
利用强化学习从人类反馈中对大型语言模型(LLMs)进行微调,该方法已在一些最广泛使用的人工智能模型中得到应用,如 OpenAI 的 ChatGPT、Anthropic 的 Claude 或 Meta 的 LLaMA-2。我们通过广泛的分析探讨了这个过程的每个阶段(即受监督的微调(SFT)、奖励建模和强化学习从人类反馈)对于两个关键属性的影响:越界分布的泛化和输出的多样性。我们发现,相对于受监督的微调,强化学习从人类反馈更好地泛化到新的输入,尤其是在训练和测试之间的分布差异越大时。然而,相比于受监督的微调,强化学习从人类反馈显著降低了输出的多样性,这意味着在当前 LLM 微调方法中存在泛化和多样性之间的权衡。我们的研究结果为特定应用提供了微调方法的指导,并表明有必要改进泛化和多样性之间的权衡。
Oct, 2023
研究探讨了使用生成对抗反馈的强化学习(RLGAF)方法,以弥补人类评估者的专业知识和生产力限制并帮助对齐大型语言模型(LLMs)的输出,从而为进一步实现 AI 对准提供了前景。
May, 2023
利用特定域数据对大型语言模型进行微调时,存在个人身份信息敏感度的问题。为了解决这一挑战,我们引入了隐私保护语言模型(PPLM),通过有效注入特定领域知识来保护数据隐私。我们的工作提供了模型设计理论分析,并详细介绍了诸如语料库整理、基于惩罚性失真的训练损失和基于指令的微调等技术。在各种数据集和场景下的广泛实验证实了我们方法的有效性。特别是,正负样本指令微调成为一种有潜力的方法,可以在增强模型知识的同时保护私人数据。我们的工作突显了大型语言模型作为强大隐私保护学习器的潜力。
Oct, 2023
本文介绍了 Fine-Grained RLHF 框架,可以对包含一定程度错误或无效信息的长文本提供细化的人类反馈进行训练,并实验表明使用该框架能够改善语言模型生成过程中生成虚假、有毒、无关的输出等问题。
Jun, 2023
基于大型语言模型对齐的一种新方法 SuperHF,旨在解决安全性、人类价值的对齐以及训练稳定性方面的挑战。SuperHF 结合了 Supervised Fine-Tuning 和 Reinforcement Learning from Human Feedback 的优点,并通过替换 PPO 算法和引入 KL divergence 先验,提出了一种新的训练方法。实验结果表明,SuperHF 在训练目标、奖励优化和模型性能等方面表现优于基于 PPO 的 RLHF,具有竞争力的语言模型对齐技术。
Oct, 2023
在研究中,我们通过秘密地微调公开权重,探索了语言模型安全训练的强壮性,成功降低了有害指令的拒绝率,证明了背离微调是切实可行和有效的。因此,我们主张在发布模型权重时,风险评估应将微调风险评估作为核心部分。
Oct, 2023
通过细调大型语言模型 (LLMs) 进行定制以优化下游应用通常需要进一步在预训练的 LLMs 上进行微调。然而,此类自定义微调的安全成本是多少?我们的研究发现,尽管现有的安全对齐基础设施可以在推理时限制 LLMs 的有害行为,但当将微调权限扩展给最终用户时,它们却无法覆盖安全风险。我们的红队研究发现,只需使用少数恶意设计的训练样例对 GPT-3.5 Turbo 进行微调,就可能危及 LLMs 的安全对齐性。此外,我们的研究还揭示,即使没有恶意意图,只需使用良性且常用的数据集对 LLMs 进行微调,也可能无意中降低其安全对齐性。这些发现表明,细调对齐的 LLMs 引入了新的安全风险,而当前的安全基础设施无法很好地解决这些风险。我们概述并对潜在减轻措施进行了批判性分析,并倡导进一步的研究努力,以加强对齐的 LLMs 的自定义微调的安全协议。
Oct, 2023
RRHF 是一种新的学习范式,通过排名损失函数对生成的回答进行评分,从而能够有效地将语言模型输出与人类偏好对齐,而且只需要 1 到 2 个模型进行调整,效果与微调相当。
Apr, 2023
本研究提出了局部微调(LoFT)方法,通过在词汇 - 语义邻近的有害查询中微调代理模型,减小代理模型与目标模型之间的差异,从而提高攻击的成功率。实验证明,局部微调代理模型能够提高攻击的传递性和攻击成功率。
Oct, 2023