纠正KL正则化神话：通过卡方偏好优化进行直接对齐而不过多参数化

Jul, 2024

纠正KL正则化神话：通过卡方偏好优化进行直接对齐而不过多参数化

Correcting the Mythos of KL-Regularization: Direct Alignment without Overparameterization via Chi-squared Preference Optimization

HTML

PDF

Audrey Huang, Wenhao Zhan, Tengyang Xie, Jason D. Lee, Wen Sun...

TL;DR语言模型对齐方法, 强化学习, 过拟合, 离线对齐算法, 样本效率。

Abstract

language model alignment methods, such as reinforcement learning from human feedback (RLHF), have led to impressive advances in language model capabilities, but existing techniques are limited by a widely observe

发现论文，激发创造

使用离线强化学习与人类反馈对齐语言模型

通过离线强化学习从人类反馈中对齐语言模型，采用最大似然估计、加权回归奖励和决策变换方法，实现了比在线RL方法更稳定的模型训练和更高的性能。

Aug, 2023

超越逆向KL：通过多样的散度约束泛化直接偏好优化

在人类意见反馈上的强化学习和多样化的分歧约束下，使大语言模型（LLMs）能够更高效地与人类偏好相一致，从而改善对齐性能。

Sep, 2023

面向语言模型对齐的高效准确优化

我们提出了一种高效的精确优化方法(EXO)，证明了它在与RL算法同向渐进地优化策略参数函数上是可保证的，并通过绕过与RL算法相关的复杂性来实现高效优化。我们通过理论和实证分析将我们的方法与DPO进行比较，并进一步展示了在现实人类偏好数据上我们方法的优势。

Feb, 2024

语言模型的解码时间对齐

对减少语言模型中的错误和偏见，与人类偏好进行对齐至关重要。我们提出解码时重新对齐（DeRa）的简单方法，用于探索和评估不同的规则化强度，从而在不重新训练的情况下实现对齐模型的规则化强度的控制，并提高超参数调优的效率。

Feb, 2024

语言模型对齐的渐近性

在这篇论文中，我们提出了对最优KL约束RL解的闭式描述。我们证明了任何在KL散度和奖励之间实现可比的权衡的对齐方法必须在相对熵方面近似于最优KL约束RL解。我们还展示了最佳N项对齐与KL约束RL解在期望奖励上渐近等价，并得出结论这两个分布在KL散度上必须相近。

Apr, 2024

了解您的参考模型以实现良好对齐

通过引入Trust Region DPO方法，我们提出了一种新的对齐方法来改善模型的质量，通过在训练过程中更新参考策略，我们展示了TR-DPO相对于DPO在多个参数上的优越性能。

Apr, 2024

大规模语言模型对线机恁学习的离维匀整进化

通过使用单轨迹数据集，本研究提出了DRO（Direct Reward Optimization）框架和相关算法，无需配对偏好数据，采用简单的均方误差目标函数实现。使用T5编码器-解码器语言模型进行实证验证，证实了DRO相对于KTO等基准模型在单轨迹策略优化方面的性能优势。

May, 2024

自我探索的语言模型：在线对齐的主动偏好引导

通过自我探索语言模型 (SELM) 优化固定在人类意图上的大型语言模型 (LLM)，比起直接优化偏离分布的模型，SELM 目标减少了无差别的偏好和提高了探索效率。

May, 2024

自博弈对抗评论家：可证明和可扩展的离线对齐语言模型

该研究探讨了将大型语言模型与离线喜好数据进行对齐的挑战，在特别关注强化学习从人类反馈中对齐的条件下。我们提出了一个新的离线偏好优化方法SPAC，它通过自我对战来实现，灵感来自离线强化学习领域的平均悲观技术，将是第一个可证明且可扩展用于大规模应用的LLM对齐方法。我们在一款具有Open LLM Leaderboard评估的7B Mistral模型上对其收敛性进行了理论分析，并展示了其具有竞争性的实证性能。

Jun, 2024

通过下采样KL散度消除直接偏好优化的有偏长度依赖

通过引入名为SamPO的有效降采样方法，解决了直接偏好优化(Direct Preference Optimization)算法中的过度优化问题(verbosity)，并实现了通过去偏的奖励实现比DPO提高5%至12%的改进。

Jun, 2024