基于评论引导的控制文本生成解码
我们提出了一种控制解码(CD)的创新离策略强化学习方法,以控制语言模型的自回归生成,以实现高回报结果。CD 通过一种用于奖励的值函数(我们称之为前缀评分器)解决了一个离策略强化学习问题,该前缀评分器在推断时间用于引导生成以实现更高的回报结果。我们的实证研究表明,在 Reddit 会话语料库上,CD 作为一种控制机制非常有效。我们还展示了 CD 的设计模块化性,使其能够有效解决一个无需额外复杂性的多目标强化学习问题。最后,我们展示了 CD 可以以一种创新的分块方式在推断时间应用,无需进行任何训练时间的更改,从根本上填补了流行的最优 $K$ 策略和标记级强化学习之间的差距。这使得 CD 成为一种有望实现语言模型的对齐的方法。
Oct, 2023
本文提出一种新方法,通过将生成器语言模型的概率输出与特殊的 “文本评论家” 分类器的输出结合起来,以评估输入数据与生成的文本之间的匹配程度,从而减轻神经数据到文本生成中的文字幻觉。实验证明,该方法对 WebNLG 和 OpenDialKG 基准具有改进效果。
Oct, 2023
本文通过指导树遍历过程中使用鉴别器推导所需的限制条件,探讨了如何在解码过程中进一步控制基于 Transformers 的大型语言模型(LM)生成的长文本,从而避免对 LM 进行微调。此方法相对于微调又更易于并且训练代价更小,同时允许更细致、更动态地应用限制条件。在评估了多种搜索和重新排序方案后,表明基于鉴别器引导的 Monte Carlo Tree Search 解码方法可以在两种限制条件和语言(法语和英语)中以最先进的效果,得到多样性鼓励下基于重新排序的其他解码方法相当好的效果。
Sep, 2021
我们提出 Decoding-time Experts 方法,结合预训练语言模型和 “专家” LM 和 / 或 “反专家” LM 的专家集,实现了受控文本生成,适用于情感控制语言(如语言净化),且优于现有技术。
May, 2021
通过引入批评语言模型的框架,利用密集奖励对强化学习中的稀疏奖励进行补偿,本研究在情感控制、语言模型去毒化和摘要生成等三个文本生成任务中验证了该方法的有效性,实验证明在训练过程中引入人工密集奖励相较于以整体奖励为基线的 PPO 算法能够稳定提升性能,并且在同一模型作为策略模型和批评模型的设定下,还能提高学习效率。
Jan, 2024
本文介绍了一种使用强化学习中的 Actor-Critic 方法来训练神经网络生成序列的方法,利用 Critic 网络来预测输出 token 的值,使得我们可以直接优化诸如 BLEU 等任务特定分数,实现了在监督学习环境下条件 Critic 网络的优化,从而在德语 - 英语机器翻译任务和一些自然语言生成任务中表现出更好的性能。
Jul, 2016
介绍了一种简单的、通用的策略,通过插值算法将 MLE-based 令牌生成策略的演员与能够估计所需属性的价值函数批判家结合来修改神经解码器的行为,从而生成具有特定属性(例如,预定长度的序列)的输出。该方法不仅能处理序列长度和后向概率等多种无法通过标准神经序列解码器处理的属性,而且在优化 BLEU 或 ROUGE 得分时能够持续改善概括性摘要和机器翻译。
Jan, 2017
本文介绍了一些控制文本生成的方法以增强语言生成模型的创造力和公平性,包括层级生成和约束解码,并应用于故事、诗歌、比喻语言的创意生成,以及减少生成模型的社会偏见。
Sep, 2022
通过受到双系统认知理论启发的 DECIDER 规则可控解码策略,本文提出了一种基于词典的约束解码方法,旨在通过特定目标概念来控制生成文本的意义或风格,实验证明 DECIDER 可以以更接近人类的方式遵循给定的规则引导生成方向,从而有效地控制生成结果。
Mar, 2024