可控偏好优化:朝着可控的多目标对齐
对大型语言模型进行人类偏好的对齐是确保其安全和有用的关键。先前的研究主要采用强化学习和直接偏好优化等方法进行对齐,但存在某些局限性。为了克服这些限制,本文提出了一种参数高效调优的对齐方法(MEET),通过改进控制标记的质量,在两个知名数据集上相比之前的方法明显提高了可控生成的质量。
Oct, 2023
多目标直接偏好优化(MODPO)是一种不依赖强化学习(RL)的算法,通过使用多个收集到的反馈和特定加权的收益模型,训练不同的语言模型以满足不同的偏好,以更高效地生成多样化的解决方案,使用了比 MORLHF 更少 3 倍的计算资源。
Oct, 2023
人类偏好对齐是提高大型语言模型交互质量的重要训练步骤。我们提出了一种对抗式偏好优化框架 (APO),通过最小最大博弈的方式,使 LLM 代理和偏好模型交替更新,从而自适应地解决生成分布差异的问题,实验证明了 APO 在改善 LLM 的帮助性和无害性方面的有效性。
Nov, 2023
使用 Listwise Preference Optimization 框架对语言模型进行排名问题的对齐,将 LiPO-λ 方法与传统的 DPO 和 SLiC 方法相比,在两项偏好对齐任务中明显表现更好。
Feb, 2024
大型语言模型的对齐问题是一个复杂的挑战,本文提出了混合偏好优化(HPO)方法,通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化,同时在各种具有挑战性的基准和模型规模上保持了对齐性能。
May, 2024
对大型语言模型的优化进行了初步探索,为了使模型正确学习文本和结果之间的关系,提出了因果语言优化问题的形式化,开发了解决该问题的方法 —— 因果偏好优化(CPO),并扩展了双重稳健 CPO(DR-CPO),最后在困难的混淆条件下验证了 DR-CPO 对于直接结果数据上优化最先进的 LLMs 的有效性和鲁棒性。
Feb, 2024
多模态大语言模型中,偏好对齐是增强模型性能的关键组成部分,但其在多模态大语言模型中的影响相对较少探索。本文独立分析了多模态大语言模型中偏好对齐的各个方面,包括对齐算法、多模态偏好数据集的构建细节以及无偏驱动幻觉采样的引入。实验表明,将离线和在线方法相结合可在某些情况下提高模型性能。
Jul, 2024
本文研究了大规模语言模型(LLMs)对齐的两种主要方法:强化学习与人类反馈(RLHF)以及基于对比学习的直接偏好优化(DPO)。通过分析 RLHF 和 DPO 的稳定性和鲁棒性,我们提出了一种新方法 MPO(混合偏好优化),该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程:首先在一个简单的数据集上对 DPO 进行训练,然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行,即 HH-RLHF 和 TLDR,展示了 MPO 的有效性,无论是在 GPT4 上还是人类评估上。
Mar, 2024
现有的 AI 对齐方法假设偏好是静态的,这是不现实的:我们的偏好会改变,甚至可能受到与 AI 系统的交互的影响。为了阐明错误地假设偏好是静态的后果,我们引入了动态回报马尔可夫决策过程 (DR-MDPs),明确地模拟偏好变化和 AI 对其的影响。我们发现,尽管静态偏好的假设具有方便性,但它可能破坏现有对齐技术的准确性,使其暗地里奖励 AI 系统以影响用户偏好,而用户可能并不真正想要这样。然后,我们探讨了潜在的解决方案。首先,我们提供了一个统一的视角,阐述了一个代理的优化范围在某种程度上如何帮助减少不希望的 AI 影响。然后,我们从一开始就形式化了不同的 AI 对齐概念,考虑了偏好的变化。比较了 8 种这样的对齐概念的优缺点,发现它们要么倾向于引起不良的 AI 影响,要么过于风险回避,这表明解决偏好改变问题的简单解决方案可能不存在。由于在实际环境中无法避免处理不断变化的偏好,这使得我们更加重视如何平衡风险和能力来处理这些问题。我们希望我们的工作可以提供概念的清晰性,并成为针对人类偏好的变化性和可影响性明确考虑和应对的 AI 对齐实践的第一步。
May, 2024
通过顺序优化方法,本研究提出了一种解决大规模语言模型对齐人类偏好多维度问题的方法,避免了显式奖励建模,并在人类偏好的多个维度上实现了对齐,实验证明其优于基线模型。
May, 2024