自我博弈语言模型的正则化研究

Apr, 2024

Investigating Regularization of Self-Play Language Models

Reda Alami, Abdalgader Abubaker, Mastane Achab, Mohamed El Amine Seddik, Salem Lahlou

TL;DR本文研究了在自我对抗的语言模型对齐环境中，各种正则化形式的效果。通过将参照策略与基本策略几何混合，我们提出了 KL（Kullback-Leibler）正则化方法以解决 SPIN（自我对抗 fine-tuning）学习阶段的性能不稳定问题，并通过采用虚构博弈的思想来平滑对手策略。我们还通过在 MT-Bench 和 Hugging Face Open LLM Leaderboard 上进行实证研究来验证我们的方法。

Abstract

This paper explores the effects of various forms of regularization in the context of language model alignment via self-play. While both re

regularization language model alignment self-play reinforcement learning fictitious play

发现论文，激发创造

语言模型对齐的自我游戏偏好优化

提议了一种基于自对弈的语言模型对齐方法，称为 SPPO，通过迭代策略更新近似求解纳什均衡策略，可以有效提高所选择的响应的对数似然并降低所拒绝响应的对数似然，同时在多个实验中表现优于其他基于对称成对损失的方法。

May, 2024

自我对弈微调将弱语言模型转化为强语言模型

通过自我对弈优化学习，无需专家对手，实现在大型语言模型中无需人工标注数据即可达到人类水平性能的研究

Jan, 2024

自博弈对抗评论家：可证明和可扩展的离线对齐语言模型

该研究探讨了将大型语言模型与离线喜好数据进行对齐的挑战，在特别关注强化学习从人类反馈中对齐的条件下。我们提出了一个新的离线偏好优化方法 SPAC，它通过自我对战来实现，灵感来自离线强化学习领域的平均悲观技术，将是第一个可证明且可扩展用于大规模应用的 LLM 对齐方法。我们在一款具有 Open LLM Leaderboard 评估的 7B Mistral 模型上对其收敛性进行了理论分析，并展示了其具有竞争性的实证性能。

Jun, 2024

语言模型的直接对齐通过质量感知的自我优化

利用人类反馈进行强化学习，用于与人类偏好一致的大型语言模型的行为对齐，提出了一个改进的 Direct Policy Optimization 方法，结合在线微调的语言模型使用内在知识来估计积极和消极响应的质量，以此改善训练结果，并实验证明其在多个评估者上比传统方法有更好的性能。

May, 2024

超越逆向 KL：通过多样的散度约束泛化直接偏好优化

在人类意见反馈上的强化学习和多样化的分歧约束下，使大语言模型（LLMs）能够更高效地与人类偏好相一致，从而改善对齐性能。

Sep, 2023

直接优化偏好：你的语言模型其实是一个暗地里的奖励模型

本文提出了一种称为 DPO（Direct Preference Optimization）的算法来解决无监督语言模型中的可控性问题，并在实验中表明，相较于传统的 RLHF 方法，DPO 不仅表现更好，而且更加稳定和简单。

May, 2023

使用 DPO 隐式奖励进行自助式语言模型训练

使用直接偏好优化（DPO）的隐式奖励模型，我们提出了自对齐方法，命名为 DPO 隐式奖励自对齐（DICE），以改进大语言模型的对齐性能和质量。

Jun, 2024

一种从人类反馈中强化学习的极简主义方法

我们提出了自我对战偏好优化（SPO）算法，用于从人类反馈中进行强化学习，通过建立 Minimax 胜者的概念，在不需要训练奖励模型或不稳定对抗训练的情况下，我们能够有效处理非马尔科夫，不可传递和随机偏好，并保持对离线顺序预测的累积误差具有鲁棒性。

Jan, 2024

混合偏好优化：通过数据选择和更好的参考模型进行强化学习

本文研究了大规模语言模型（LLMs）对齐的两种主要方法：强化学习与人类反馈（RLHF）以及基于对比学习的直接偏好优化（DPO）。通过分析 RLHF 和 DPO 的稳定性和鲁棒性，我们提出了一种新方法 MPO（混合偏好优化），该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程：首先在一个简单的数据集上对 DPO 进行训练，然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行，即 HH-RLHF 和 TLDR，展示了 MPO 的有效性，无论是在 GPT4 上还是人类评估上。

Mar, 2024

了解您的参考模型以实现良好对齐

通过引入 Trust Region DPO 方法，我们提出了一种新的对齐方法来改善模型的质量，通过在训练过程中更新参考策略，我们展示了 TR-DPO 相对于 DPO 在多个参数上的优越性能。

Apr, 2024