对抗性数据预处理:减少对话代理中的毒性同时对连贯性和伪装性的影响最小化
本文研究了对齐算法、预训练语言模型、直接偏好优化、毒性减少和模型对齐等关键主题及研究领域,并提出了一种简单的方法来逆转模型的对齐,使其恢复其有毒行为。
Jan, 2024
通过因子分析理论,引入无需调优的对齐替代方案(DeTox),该方案通过从模型的参数空间中检测出有毒子空间,通过投影方式去除检测到的子空间,从而减少模型的有毒性。我们证明了 DeTox 比 DPO 更加高效,并且对噪声数据具有更强的鲁棒性。最后,我们建立了 DeTox 和 DPO 之间的理论和实证关系,并展示了 DeTox 可以被解释为单一 DPO 步骤的去噪版本。
May, 2024
在这项工作中,我们研究了以直接策略优化(DPO)为基础的强化学习模型在不同情景下对攻击的脆弱性,并比较了首次提出的偏好污染攻击的有效性。我们发现,相比于基于 Proximal Policy Optimization(PPO)方法的模型,DPO 更容易受到攻击,只需在数据中注入 0.5% 的毒数据即可产生有害行为,而 PPO 方法则需要至少 4% 的毒数据才能导致有害行为。我们还进一步探究了这种脆弱性背后的潜在原因以及该脆弱性在背门和非背门攻击中的表现。
Jun, 2024
我们提出了 D2PO,即鉴别器引导的 DPO,在线设置下通过收集偏好来训练策略,同时使用鉴别器模型对回应进行评估,以获得高质量的输出和更高的效率。
May, 2024
通过使用 Direct Preference Optimisation (DPO) 方法对大型语言模型 (LLMs) 进行优化,在相关任务如推理、摘要和对齐等方面显著提高性能。研究表明当两个完成的选择之间的相对概率增加时,标准的 DPO 损失会导致模型对首选示例的可能性减少,而通过使用 DPO-Positive (DPOP) 的新的损失函数和训练过程可以避免这种情况,并且在各种数据集和任务上都优于 DPO。
Feb, 2024
直接偏好优化(DPO)是一种成功调优策略,用于将大型语言模型与人类偏好对齐,而无需训练奖励模型或使用强化学习。本文提出了一种名为带有偏移量的 DPO(ODPO)的 DPO 泛化方法,通过对更喜欢或更讨厌的回复之间的可能性差异设置偏移量,以在调优过程中有选择地处理偏好对。实验结果表明,ODPO 在对齐语言模型方面明显优于传统的 DPO 方法,尤其是在偏好对数量有限的情况下。
Feb, 2024
通过对 Direct Preference Optimization(DPO)的实证研究和与 RLHF-PPO 的系统比较,我们发现 DPO 的三个学习结果特征,即被拒绝回应的概率剧烈下降、LLM 的退化以及对未见回应的扩散效应。在此基础上,我们提出了简单的正则化方法来缓解这些问题,提高 DPO 的训练稳定性和最终性能,同时研究配对偏好数据分布对 DPO 效果的影响。希望本研究能够为缩小无奖偏好学习方法和基于奖励学习方法之间的差距提供研究方向。
Jun, 2024
通过引入 Constrained DPO (C-DPO) 方法,本研究提出了一种高效且轻量级的方法,用于在基于人类反馈的强化学习 fine-tuning 阶段强制执行安全约束,从而在同时提高 AI 系统的有用性和安全性方面找到了几乎最优的平衡点。
Mar, 2024
通过引入在随机偏好翻转情况下进行策略优化的总体框架,我们的实验表明将 rDPO 与其他从业者提出的启发式算法相比,可以显著降低偏好标签噪音对学习策略的影响。
Mar, 2024
提出一种称为 “rDPO” 的方法,通过自我批评引导创建合成数据,并利用广义的 DPO 损失函数蒸馏为学生 LLM,其中使用额外的外部奖励模型提高合成数据质量,从而改善大型语言模型的行为对齐。
Feb, 2024