大规模语言模型对线机恁学习的离维匀整进化

May, 2024

大规模语言模型对线机恁学习的离维匀整进化

Offline Regularised Reinforcement Learning for Large Language Models Alignment

Pierre Harvey Richemond, Yunhao Tang, Daniel Guo, Daniele Calandriello, Mohammad Gheshlaghi Azar...

TL;DR通过使用单轨迹数据集，本研究提出了 DRO（Direct Reward Optimization）框架和相关算法，无需配对偏好数据，采用简单的均方误差目标函数实现。使用 T5 编码器 - 解码器语言模型进行实证验证，证实了 DRO 相对于 KTO 等基准模型在单轨迹策略优化方面的性能优势。

Abstract

The dominant framework for alignment of large language models (LLM), whether through reinforcement learning from human feedback or direct preference optimisation, is to learn from →

alignment large language models preference data direct reward optimization single-trajectory policy optimization

发现论文，激发创造

直接优化偏好：你的语言模型其实是一个暗地里的奖励模型

本文提出了一种称为 DPO（Direct Preference Optimization）的算法来解决无监督语言模型中的可控性问题，并在实验中表明，相较于传统的 RLHF 方法，DPO 不仅表现更好，而且更加稳定和简单。

May, 2023

通过分布偏好奖励建模对齐群体反馈

分布偏好奖励模型（DPRM）是一个简单而有效的框架，通过将最大语言模型（LLM）与多样化的人类偏好对齐，以提高对人群偏好的代表性。

Feb, 2024

使用离线强化学习与人类反馈对齐语言模型

通过离线强化学习从人类反馈中对齐语言模型，采用最大似然估计、加权回归奖励和决策变换方法，实现了比在线 RL 方法更稳定的模型训练和更高的性能。

Aug, 2023

混合偏好优化：通过数据选择和更好的参考模型进行强化学习

本文研究了大规模语言模型（LLMs）对齐的两种主要方法：强化学习与人类反馈（RLHF）以及基于对比学习的直接偏好优化（DPO）。通过分析 RLHF 和 DPO 的稳定性和鲁棒性，我们提出了一种新方法 MPO（混合偏好优化），该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程：首先在一个简单的数据集上对 DPO 进行训练，然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行，即 HH-RLHF 和 TLDR，展示了 MPO 的有效性，无论是在 GPT4 上还是人类评估上。

Mar, 2024

大型语言模型的主动偏好学习

利用 DPO 进行喂养，通过预测语言模型的预测熵和由 DPO 优化的隐式优先级模型的确定性度量，我们开发了一种主动学习策略来更好地利用偏好标签，从而提高配对偏好数据的学习速率和最终性能。

Feb, 2024

了解您的参考模型以实现良好对齐

通过引入 Trust Region DPO 方法，我们提出了一种新的对齐方法来改善模型的质量，通过在训练过程中更新参考策略，我们展示了 TR-DPO 相对于 DPO 在多个参数上的优越性能。

Apr, 2024

直接对齐中的平均对数似然

为了更好地将大型语言模型与人类判断相一致，本研究通过从人类反馈中学习奖励模型，然后使用规则化强化学习进行优化。最近，引入了直接对齐方法，通过从偏好数据集中学习一个经过调优的模型，而无需计算代理奖励函数。然而，这些方法建立在包含对训练模型中（不）偏好完成的对数似然的对比损失上。然而，完成有各种长度，而对数似然不是长度不变的。为了调和这些方法，我们引入了一种使直接对齐长度不变的原则性方法。形式上，我们引入了一个新的平均算子，与给定基本 RL 问题的最佳策略算子结合使用。它在损失函数中对对数似然进行平均。通过实证研究这种平均化的效果，我们观察到生成文本的长度和其评分之间的权衡关系。

Jun, 2024

直接纳什优化：通过一般偏好教导语言模型自我改进

本文研究了使用强力预言机的偏好反馈来帮助模型迭代改进的训练后大语言模型。通过直接优化一般偏好关系，本文介绍了可证明且可扩展的 Direct Nash Optimization 算法，并在实验中证明其在性能上优于其他模型。

Apr, 2024

LLM 对齐的贝叶斯奖励模型

为了确保大型语言模型的回复是有用且无毒的，通常我们会在人类偏好数据上对奖励模型进行微调。然后，我们选择具有高奖励的策略回复（最佳 n 采样），或者进一步优化策略以生成具有高奖励的回复（从人类反馈中进行强化学习）。然而，这个过程容易受到奖励过度优化或黑客攻击的影响，即所选择的回复之所以具有高奖励是因为奖励模型中存在错误，而不是真正的偏好。通过训练贝叶斯奖励模型，可以缓解这些问题，该模型可以在离训练数据分布较远的位置发出更高的不确定性信号。因此，我们使用 Laplace-LoRA（Yang 等，2024 年）训练了贝叶斯奖励模型，并发现由此产生的不确定性估计可以成功缓解最佳 n 采样中的奖励过度优化。

Feb, 2024

利用策略奖励学习对语言模型进行微调

提出了一种基于策略的奖励学习（RLP）无监督框架，通过使用策略样本来完善奖励模型，以保持其在分布上的一致性，实验结果表明 RLP 在三个基准数据集上始终优于现有技术。

Mar, 2024