GROOT:用于生成序列标记的纠正奖励优化
提出了一种新的序列级训练算法,使自然语言处理应用程序使用的语言模型在生成文本时更加强大和高效。这种方法能够直接优化在测试期间使用的指标,并且在三个不同的任务中,我们的方法优于其他几种基准方法。同时,在其他基准方法使用波束搜索时,我们的方法也具有竞争力,而且速度快几倍。
Nov, 2015
本研究提出了一种利用生成对抗网络和强化学习相结合的方法,实现对数据生成过程进行度量偏置,提高目标数据质量。通过在分子和音乐生成数据的生成过程中的应用,验证了该方法的有效性。
May, 2017
通过强化学习优化针对问题产生特定目标的奖励,如流畅性、相关性和可回答性,以提高生成问题的质量。优化问题特定的奖励通常会在自动评估指标中表现出更好的性能,但是,仅与人类判断相关的奖励(例如相关性)会在实际问题质量上带来真正的改善。只优化可回答性等其他问题会引入模型的错误偏见,导致质量差的问题。
Nov, 2020
该研究采用强化学习方法,使用 policy gradient methods 对质量度量进行直接优化,以解决 Seq2Seq 架构中 exposure bias 导致的错误扩散,从而提高问题生成的质量。同时发现先前被认为是好的指标实际上与人类判断不太相关。
Feb, 2019
大型语言模型(LLMs)可以通过人类喜好的对齐显著提高,即所谓的来自人类反馈的强化学习(RLHF)。然而,对于许多用户而言,微调 LLM 的成本是不可接受的。最近提出的逐标记奖励引导的文本生成(RGTG)方法可绕过 LLM 微调,它们使用在完整序列上训练的奖励模型来评分在标记级解码期间的部分序列,以引导生成高奖励序列。然而,这些方法迄今为止仅仅是启发式的动机和贫乏的分析。在这项工作中,我们展示了在全序列上训练的奖励模型与评分部分序列不兼容。为缓解这个问题,我们建议明确地在部分序列上训练 Bradley-Terry 奖励模型,并且在解码时从隐含的标记级策略中自回归采样。我们研究了这个奖励模型和隐含策略的性质。特别地,我们展示了这个策略与两个不同的 RLHF 策略之比成正比。我们展示了我们简单的方法优于之前的 RGTG 方法,并且在没有大规模 LLM 微调的情况下实现了与强大的线下基准的类似性能。
Jun, 2024
本文介绍了 Story Ending Generation (SEG) 任务,提出了一个由 Generator 和 Reward Manager 组成的框架来生成一个连贯的故事结尾,其中 Generator 使用了指针生成网络与覆盖机制来处理词汇表外(OOV)和重复的单词,同时使用混合损失方法来生成具备高语义相关性的故事结尾,Reward Manager 使用策略梯度强化学习(PGRL)来微调 Generator,实验表明,相较于序列到序列基准模型,我们的模型在自动评估和人类评估中分别提高了 15.75%和 13.57%的 CIDEr 和一致性得分
Jan, 2019
本文提出了一个名为 SeqTR 的简单且通用的网络,用于视觉定位任务和指代表达理解任务,通过将视觉定位问题视为图像和文本输入的点预测问题,可以在 SeqTR 网络中统一视觉定位任务而无需任务特定的分支或头,使用简单的交叉熵损失进一步降低了手工损失函数的复杂性,并且在五个基准数据集上进行的实验证明了 SeqTR 的可行性和优越性。
Mar, 2022
本文提出 LAGr 模型,通过预测多层输入对齐图的节点和边标签,达到以图形而不是序列的形式直接生成意义表征,从而取得较 seq2seq 模型更好的系统化概括效果。
May, 2022
本研究提出了一种 GAN 类似的序列标注模型,采用 Gumbel-Softmax 采样和真实的错误分布来进行语法纠错,以解决传统模型训练与推理不匹配的问题,实验结果表明该方法有效,并改进了之前的最先进基准。
May, 2021
本研究通过自我批判的序列训练 (SCST) 优化了图像说明系统,采用强化学习的政策梯度方法直接训练系统,并使用 MSCOCO 测试指标,使性能显著提高,实现了针对端到端系统直接优化非可微分度量的目标。
Dec, 2016