语言模型的可控解码

Oct, 2023

Controlled Decoding from Language Models

Sidharth Mudgal, Jong Lee, Harish Ganapathy, YaGuang Li, Tao Wang...

TL;DR我们提出了一种控制解码（CD）的创新离策略强化学习方法，以控制语言模型的自回归生成，以实现高回报结果。CD 通过一种用于奖励的值函数（我们称之为前缀评分器）解决了一个离策略强化学习问题，该前缀评分器在推断时间用于引导生成以实现更高的回报结果。我们的实证研究表明，在 Reddit 会话语料库上，CD 作为一种控制机制非常有效。我们还展示了 CD 的设计模块化性，使其能够有效解决一个无需额外复杂性的多目标强化学习问题。最后，我们展示了 CD 可以以一种创新的分块方式在推断时间应用，无需进行任何训练时间的更改，从根本上填补了流行的最优 $K$ 策略和标记级强化学习之间的差距。这使得 CD 成为一种有望实现语言模型的对齐的方法。

Abstract

We propose controlled decoding (CD), a novel off-policy reinforcement learning method to control the autoregressive generation from language models towards high reward outcomes. CD solves an off-policy reinforcement lea

controlled decoding off-policy reinforcement learning prefix scorer multi-objective reinforcement learning blockwise fashion

发现论文，激发创造

基于评论引导的控制文本生成解码

本文介绍了一种新型的批判性解码方法来实现语言生成的控制，在控制主题、情感和排毒方面，表现得比以前的方法更好，并且在零 - shot 情况下表现出卓越的泛化能力。

Dec, 2022

ARM: 高效的带引导解码的自回归奖励模型

在大量数据训练的语言模型中，需要仔细调整以在实际应用中安全部署。我们重新审查了引导解码范例，目标是使用任务特定奖励模型的评分来增强基础语言模型的逻辑回归。我们提出了一种简单但高效的自回归奖励模型参数化方法，实现了快速和有效的引导解码。在解毒和情感控制任务中，我们展示了我们高效参数化方法与 RAD（一种功能强大但不够高效的引导解码方法）性能相当。

Jul, 2024

未来成功学习解码

介绍了一种简单的、通用的策略，通过插值算法将 MLE-based 令牌生成策略的演员与能够估计所需属性的价值函数批判家结合来修改神经解码器的行为，从而生成具有特定属性（例如，预定长度的序列）的输出。该方法不仅能处理序列长度和后向概率等多种无法通过标准神经序列解码器处理的属性，而且在优化 BLEU 或 ROUGE 得分时能够持续改善概括性摘要和机器翻译。

Jan, 2017

DECIDER: 一种基于模仿双系统认知理论的规则可控解码策略

通过受到双系统认知理论启发的 DECIDER 规则可控解码策略，本文提出了一种基于词典的约束解码方法，旨在通过特定目标概念来控制生成文本的意义或风格，实验证明 DECIDER 可以以更接近人类的方式遵循给定的规则引导生成方向，从而有效地控制生成结果。

Mar, 2024

对比解码：作为优化的开放式文本生成

本文提出一种基于对比解码的生成算法，将大型语言模型与小型语言模型相比较，找出高质量的文本生成结果，并在自动和人工评估中优于四种强大的解码算法。

Oct, 2022

奖励增强解码：高效受控文本生成的单向奖励模型

使用奖励增强解码（RAD）的文本生成过程，通过小型单向奖励模型来鼓励语言模型生成具有特定属性的文本，通过实验证明 RAD 在生成非有毒和情绪受控文本方面表现最佳，并且在减少计算开销方面与最先进的方法相媲美。

Oct, 2023

PREADD：前缀自适应解码用于受控文本生成

我们提出了一种灵活的控制文本生成的方法：前缀自适应解码（PREADD）。与现有方法使用辅助专家模型控制属性不同，PREADD 不需要外部模型，而是依靠线性组合从多个提示生成的输出标志 logit。具体而言，PREADD 将使用原始提示生成的输出标志与使用前缀预置提示生成的输出标志进行对比，从而对前缀所包含的任何属性进行正向和负向控制。我们在三个任务上评估了 PREADD—— 有害输出缓解、性别偏见减少和情感控制，并发现 PREADD 在每个任务的主要指标上相对增益达到 12% 或更多，不仅优于提示基准，而且优于辅助专家控制方法。

Jul, 2023

RLCD: 强化学习从对比教育中提炼的语言模型对齐

我们提出了一种无需人工反馈的方法，从对比蒸馏中强化学习（RLCD）来使语言模型遵循自然语言规则。RLCD 使用模拟的偏好对来训练一个偏好模型，其中包含通过对比正面和负面提示生成的高质量和低质量例子。然后使用偏好模型通过强化学习来改善基础未对齐的语言模型。实证结果表明，RLCD 在三个不同的对齐任务（无害性、有帮助性和故事大纲生成）以及 7B 和 30B 模型规模的偏好数据模拟上优于 RLAIF（Bai 等，2022b）和上下文蒸馏（Huang 等，2022）对照组。

Jul, 2023

使用强化学习为扩散模型添加条件控制

基于强化学习的 $ extbf {CTRL}$（$ extbf {C}$onditioning pre-$ extbf {T}$rained diffusion models with $ extbf {R}$einforcement $ extbf {L}$earning）方法通过离线数据集，利用强化学习方法在预训练模型上添加额外控制，从而能在推理过程中对条件分布进行采样。与现有方法相比，我们的基于强化学习的方法提供了更高的样本效率，并且利用了输入和额外控制之间的条件独立性，从而极大地简化了离线数据集的构建。此外，与分类器指导方法不同，我们不需要从中间状态到额外控制训练分类器。

Jun, 2024

将后缀梯度压缩为前缀控制器以实现 LLM 行为的自我控制

我们提出了 Self-Control，一种利用后缀梯度控制大型语言模型行为的新方法，无需明确的人工注释。通过给定后缀字符串表示的指导方针和模型对遵守度的自我评估，Self-Control 计算模型隐藏状态的自我判断的梯度，直接影响自回归生成过程朝着所期望的行为方向。为了提高效率，我们引入了 Self-Control_{prefix}，这是一个紧凑的模块，将从后缀梯度中学得的表示封装到 Prefix Controller 中，以促进各种大型语言模型行为的推理时控制。我们的实验证明了 Self-Control 在多个领域的有效性，包括情感调节，确保无害性和增强复杂推理。特别是，Self-Control_{prefix} 实现了即插即用的控制，并能够同时控制多个属性，改进模型输出而不改变模型参数或增加推理时的成本。

Jun, 2024