使用 KL 惩罚的强化学习更适合视为贝叶斯推断

EMNLPMay, 2022

使用 KL 惩罚的强化学习更适合视为贝叶斯推断

RL with KL penalties is better viewed as Bayesian inference

Tomasz Korbak, Ethan Perez, Christopher L Buckley

TL;DR本文旨在分析强化学习如何应用于微调大型语言模型，研究 KL-regularized 强化学习的表现和原理，并论证 RL 并非是微调语言模型的最佳框架，而语言模型的微调应该被看做贝叶斯推断的问题。

Abstract

reinforcement learning (RL) is frequently employed in fine-tuning large language models (LMs), such as GPT-3, to penalize them for undesir

reinforcement learning fine-tuning language models kl-regularised rl bayesian inference

发现论文，激发创造

基于层次结构的 KL 正则化强化学习中的学习和迁移

本文提出一种基于 KL 正则化预期奖励目标的强化学习代理方法，它可以利用先验知识并在解决方案空间中利用可重复使用的结构，同时讨论了在增加潜在变量的情况下如何实现分层结构的不同归纳偏置以及其中的置换学习问题。实验证明，这种代理方法可以应用于不同的连续控制任务中，获得更快的学习和置换效果。

Mar, 2019

关于强化学习和分布匹配的论文，用于微调语言模型以避免灾难性遗忘

研究表明 Reward Maximization 和 Distribution Matching 之间存在理论上的联系，并发现两种方法在提高约束满足度、稳定性和样本效率方面添加基线的好处。

Jun, 2022

KL 正则化强化学习中的信息不对称

研究如何通过限制收集到的信息，学习可重用行为作为默认策略，从而加速和规范学习过程，同时探讨了该策略与信息瓶颈方法和变分 EM 算法之间的联系，并在离散和连续动作领域提出了经验结果。

May, 2019

LLM 如何引导强化学习？一种基于价值的方法

本研究探讨了如何利用大型语言模型的策略先验知识来提高强化学习算法的样本利用效率，并通过在三个交互环境中的实验验证了该方法在成功率和样本利用效率方面均超过了之前的强化学习和大型语言模型方法。

Feb, 2024

利用平均值：RL 中 KL 正则化的分析

本文探讨强化学习中的 KL 正则化，发现其内在地平均了 q-values，并推导了一个具有两个优点的性能上界。该性能上界在时间序列上的依赖是线性的而非二次的，误差传播方程涉及到估计误差的平均效果而非累积效果。我们也对额外熵正则化的更一般情况进行了研究，这个抽象模型包含了许多现有的强化学习算法。

Mar, 2020

LLM 对齐的贝叶斯奖励模型

为了确保大型语言模型的回复是有用且无毒的，通常我们会在人类偏好数据上对奖励模型进行微调。然后，我们选择具有高奖励的策略回复（最佳 n 采样），或者进一步优化策略以生成具有高奖励的回复（从人类反馈中进行强化学习）。然而，这个过程容易受到奖励过度优化或黑客攻击的影响，即所选择的回复之所以具有高奖励是因为奖励模型中存在错误，而不是真正的偏好。通过训练贝叶斯奖励模型，可以缓解这些问题，该模型可以在离训练数据分布较远的位置发出更高的不确定性信号。因此，我们使用 Laplace-LoRA（Yang 等，2024 年）训练了贝叶斯奖励模型，并发现由此产生的不确定性估计可以成功缓解最佳 n 采样中的奖励过度优化。

Feb, 2024

强化学习与概率推断的理解

本研究因 RL 作为推理方法的短处而对其进行澄清，RL 代理人必须考虑其行动对未来奖励和观察结果的影响，即探索和开发之间的权衡。我们证明了‘RL 作为推理’近似在基本问题中表现不佳，但我们展示了通过小修正该框架可以获得可靠的算法，该算法与最近提出的 K-learning 等价，我们进一步将其与汤普森取样联系起来。

Jan, 2020

隐式不可能性训练：利用强化学习提升神经文本生成

本文提出在语言模型中使用策略梯度强化学习进行微调，以直接优化更好的文本生成，将这种方法应用于最小化生成文本中的重复，并展示了当与 unlikelihood training 相结合时，我们的方法进一步减少了重复而未影响语言模型质量。此外，我们还评估了其他方法来改进训练和解码时间，并使用各种度量标准来比较它们，以达到更好的文本生成输出的控制。

Jan, 2021

针对预训练语言模型的标签正则化微调研究

该研究旨在研究标签正则化技术在 NLP 中的使用以及它是否需要老师网络进行指导，经过对 BERT、RoBERTa 和 GPT 等 PLMs 进行 600 多次试验，发现预训练本身已经具有正则化的作用，因此在 fine-tuning 时，添加额外的标签正则化并不必要。

May, 2022

监督微调作为逆强化学习

我们通过建立一个顺序决策框架，利用示范数据集来对齐大型语言模型（LLMs），并介绍了各种减小 LLM 对齐任务中差异的方法，分析了这些方法的覆盖率和寻求主模式的行为，以及传统监督微调方法的优势和劣势。

Mar, 2024