语言模型对齐的自我游戏偏好优化

May, 2024

语言模型对齐的自我游戏偏好优化

Self-Play Preference Optimization for Language Model Alignment

Yue Wu, Zhiqing Sun, Huizhuo Yuan, Kaixuan Ji, Yiming Yang...

TL;DR提议了一种基于自对弈的语言模型对齐方法，称为 SPPO，通过迭代策略更新近似求解纳什均衡策略，可以有效提高所选择的响应的对数似然并降低所拒绝响应的对数似然，同时在多个实验中表现优于其他基于对称成对损失的方法。

Abstract

Traditional reinforcement learning from human feedback (RLHF) approaches relying on parametric models like the Bradley-Terry model fall short in capturing the intransitivity and irrationality in human preferences. Recent advancements suggest that directly working with preference probab

reinforcement learning language model alignment self-play-based method preference optimization nash equilibrium policy

发现论文，激发创造

自我博弈语言模型的正则化研究

本文研究了在自我对抗的语言模型对齐环境中，各种正则化形式的效果。通过将参照策略与基本策略几何混合，我们提出了 KL（Kullback-Leibler）正则化方法以解决 SPIN（自我对抗 fine-tuning）学习阶段的性能不稳定问题，并通过采用虚构博弈的思想来平滑对手策略。我们还通过在 MT-Bench 和 Hugging Face Open LLM Leaderboard 上进行实证研究来验证我们的方法。

Apr, 2024

一种从人类反馈中强化学习的极简主义方法

我们提出了自我对战偏好优化（SPO）算法，用于从人类反馈中进行强化学习，通过建立 Minimax 胜者的概念，在不需要训练奖励模型或不稳定对抗训练的情况下，我们能够有效处理非马尔科夫，不可传递和随机偏好，并保持对离线顺序预测的累积误差具有鲁棒性。

Jan, 2024

自博弈对抗评论家：可证明和可扩展的离线对齐语言模型

该研究探讨了将大型语言模型与离线喜好数据进行对齐的挑战，在特别关注强化学习从人类反馈中对齐的条件下。我们提出了一个新的离线偏好优化方法 SPAC，它通过自我对战来实现，灵感来自离线强化学习领域的平均悲观技术，将是第一个可证明且可扩展用于大规模应用的 LLM 对齐方法。我们在一款具有 Open LLM Leaderboard 评估的 7B Mistral 模型上对其收敛性进行了理论分析，并展示了其具有竞争性的实证性能。

Jun, 2024

在线自好的语言模型

借助自主生成的响应对和自我评定的偏好强度信息，我们提出了在线自主偏好（OSP）语言模型来学习，展示了利用偏好强度是关键避免过度拟合和增强对准性能。OSP 在两个广泛使用的人类偏好数据集中实现了最先进的对准性能，而且在有限的离线数据和跨领域任务推广方面，OSP 是效率高、稳健性高于主流的在线方法 RLHF 的选择。此外，具有自主偏好能力的 LLM 建立的 OSP 语言模型可以在无需外部监督的情况下高效自我改进。

May, 2024

自我增强偏好优化：语言模型对齐的离线策略范式

通过引入自我增强式优化（SAPO）方法，本研究提出了一种有效和可扩展的训练范式 —— 自我增强式偏好优化，不依赖于现有的配对数据，通过自我对弈生成负面响应，并结合离线对比基线和历史数据的实时反馈来动态更新响应段，从而匹配或超过现有离线对比的基线方法，如 Direct Preference Optimization 和 Odds Ratio Preference Optimization，同时优于离线自我对弈方法，如 SPIN。

May, 2024

迭代纳什策略优化：通过无悔学习使 LLMs 与一般偏好相一致

本文以游戏理论的角度，探讨了一种基于人类偏好与强化学习的算法，通过采用无懊悔学习，自我对抗的方式逼近纳什平衡策略，从而解决了大规模语言模型对人类反馈的规模性计算问题。实验证明该算法相较于之前的方法在不考虑个体响应的预期胜率的情况下能够取得更好的结果。

Jun, 2024

SPO：多维偏好顺序对齐与隐式奖励建模

通过顺序优化方法，本研究提出了一种解决大规模语言模型对齐人类偏好多维度问题的方法，避免了显式奖励建模，并在人类偏好的多个维度上实现了对齐，实验证明其优于基线模型。

May, 2024

软化偏好优化：将语言模型与专家分布对齐

我们提出了软偏好优化（SPO）方法，它能够使生成模型（如大型语言模型 LLMs）与人类偏好对齐，无需奖励模型。SPO 通过一种自然损失函数，在整个模型的输出分布中最大程度地优化模型输出，包括偏好损失和正则化项。虽然 SPO 不需要假设现有的基础奖励模型，但我们证明，在布拉德利 - 特里（BT）模型的假设下，它收敛于缩放奖励的 softmax，通过调整 softmax 指数，可以调节分布的 “软度”。我们展示了 SPO 的方法论、其理论基础以及在简单性、计算效率和对齐精度方面的比较优势。

Apr, 2024

使用 DPO 隐式奖励进行自助式语言模型训练

使用直接偏好优化（DPO）的隐式奖励模型，我们提出了自对齐方法，命名为 DPO 隐式奖励自对齐（DICE），以改进大语言模型的对齐性能和质量。

Jun, 2024

混合偏好优化：通过数据选择和更好的参考模型进行强化学习

本文研究了大规模语言模型（LLMs）对齐的两种主要方法：强化学习与人类反馈（RLHF）以及基于对比学习的直接偏好优化（DPO）。通过分析 RLHF 和 DPO 的稳定性和鲁棒性，我们提出了一种新方法 MPO（混合偏好优化），该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程：首先在一个简单的数据集上对 DPO 进行训练，然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行，即 HH-RLHF 和 TLDR，展示了 MPO 的有效性，无论是在 GPT4 上还是人类评估上。

Mar, 2024