通过 f - 分离最小化来对齐语言模型与偏好

Feb, 2023

通过 f - 分离最小化来对齐语言模型与偏好

Aligning Language Models with Preferences through f-divergence Minimization

Dongyoung Go, Tomasz Korbak, Germán Kruszewski, Jos Rozen, Nahyeon Ryu...

TL;DR提出了一种新的方法 f-DPG，它允许使用任何 f - 分歧来近似任何目标分布。f-DPG 统一了 RLHF 和 GDC 的两个框架，并且演示了不同的分歧优于近似不同目标。

Abstract

Aligning language models with preferences can be posed as approximating a target distribution representing some desired behavior. Existing

language models preferences target distribution rlhf f-dpg

发现论文，激发创造

超越逆向 KL：通过多样的散度约束泛化直接偏好优化

在人类意见反馈上的强化学习和多样化的分歧约束下，使大语言模型（LLMs）能够更高效地与人类偏好相一致，从而改善对齐性能。

Sep, 2023

MaxMin-RLHF: 大规模语言模型与多样化人类偏好的公平对齐

通过使用期望最大化算法，学习一种偏好分布的混合，以及基于社会选择理论中的平等原则提出一种最大最小对齐目标，提高代表多样化人类偏好的能力，并通过小规模和大规模语言模型的实验结果证明其有效性和公平性。

Feb, 2024

基于 f - 差距最小化的模仿学习

本文提出了一种使用多模演示的模仿学习方法，针对现有方法中插值错误的问题，采用与专家状态 - 行动分布的正向 KL 散度相对应的反向 KL 散度，即 I-projection，作为不同 f - 散度估计和最小化的框架，并得出了比 GAIL 和行为克隆更加可靠的多模行为近似 I-projection 方法。

May, 2019

变分 f 散度最小化

该论文探讨了一种用于训练概率隐变量模型的变分方法，其中结合了最近引入的 Spread Divergence 方法，可以应用于使用任何 f-divergence 训练大量的潜变量模型。

Jul, 2019

了解您的参考模型以实现良好对齐

通过引入 Trust Region DPO 方法，我们提出了一种新的对齐方法来改善模型的质量，通过在训练过程中更新参考策略，我们展示了 TR-DPO 相对于 DPO 在多个参数上的优越性能。

Apr, 2024

使用未观测到的偏好异质性进行直接偏好优化

利用 DPO 和最大期望适应机制，通过生成模型的混合来对齐不同人类偏好的生成模型，同时引入极小极大后悔集成学习模型以在类似潜在因素的注释者子组之间最小化最坏情况后悔，实验证实了方法在产生公正生成策略方面的有效性。

May, 2024

多目标奖励的 LLMs 多元用户偏好算术控制：方向偏好对齐

使用方向偏好对大规模语言模型进行细粒度控制，并结合多目标奖励建模，以实现对用户偏好的多样化表示，从而在保持竞争性性能的同时提供直观的 LLM 生成控制。

Feb, 2024

用 f - 散度最小化训练深度能量模型

本文提出了 f-EBM 框架，该框架利用 f 散度来训练 EBM，实验结果表明 f-EBM 的优越性以及使用 f 散度训练 EBM 的好处。

Mar, 2020

最小概率流学习

本文提出了一种新的参数估计技术，该技术无需计算不可处理的归一化因子或从模型的平衡分布中采样，通过建立动态算法将观测到的数据分布转化为模型分布，并通过使得数据分布与运行该动态算法的分布的 KL 散度最小化来进行优化，在 Ising 模型等情况下展示比当前先进技术更快的学习效率和更低的误差。

Jun, 2009

一种基于分布式的控制文本生成方法

本文提出一种基于分布式方法的控制文本生成方案，旨在在单个形式框架中指定 “点对点” 和 “分布式” 约束，实现与初始 LM 分布 KL 散度最小的目标 LM 的训练。同时，基于 Energy-Based Model 表示确定最优目标分布。该方案通过自适应分布式模型改进了 Policy Gradient. 作者在实验中表明，该方案在满足约束方面较其它方法具有优势。实验结果还表明该方案应对了语言模型中 “偏见” 的问题。

Dec, 2020