一种更好的自举式序列训练变体
本研究通过自我批判的序列训练 (SCST) 优化了图像说明系统,采用强化学习的政策梯度方法直接训练系统,并使用 MSCOCO 测试指标,使性能显著提高,实现了针对端到端系统直接优化非可微分度量的目标。
Dec, 2016
本文提出了一种基于损失函数和词错误率的奖励函数的增强学习方法 —— 自我关键序列训练 (SCST) 来解决自动语音识别中的若干问题,取得了 8.7% 和 7.8% 的词错误率相对改进。
Apr, 2022
本文探讨了如何使用无参数评估器来估计图像字幕生成中的状态值,并使用重构的优势函数进行 N 步训练,这种方法相对于 MSCOCO 数据集上的序列级优势和参数化估值方法能够取得更好的性能表现。
Apr, 2019
提出了一种新的序列级训练算法,使自然语言处理应用程序使用的语言模型在生成文本时更加强大和高效。这种方法能够直接优化在测试期间使用的指标,并且在三个不同的任务中,我们的方法优于其他几种基准方法。同时,在其他基准方法使用波束搜索时,我们的方法也具有竞争力,而且速度快几倍。
Nov, 2015
本文介绍了一种使用强化学习中的 Actor-Critic 方法来训练神经网络生成序列的方法,利用 Critic 网络来预测输出 token 的值,使得我们可以直接优化诸如 BLEU 等任务特定分数,实现了在监督学习环境下条件 Critic 网络的优化,从而在德语 - 英语机器翻译任务和一些自然语言生成任务中表现出更好的性能。
Jul, 2016
本文介绍了一种称为 Self-Correction 的方法,该方法可以用于解决序列生成应用中存在的语义约束问题,该方法通过将完美的基本生成器与学习逐步纠正其输出的单独的纠正器分离来实现。我们证明,即使纠正器比基本生成器小得多,在数学程序合成、词汇约束生成和毒性控制等三个不同的生成任务上,Self-Correction 仍然优于基本生成器。
Oct, 2022
我们提出了一种统一的解码干预框架,利用外部评论家来评估逐步生成的令牌的适当性,并在动态影响下一个令牌的选择。通过在英语和中文数据集上进行广泛实验,我们的框架始终优于强基准线,并达到与最先进方法相媲美的结果。
Oct, 2023
本研究探究了基于 actor-critic 强化学习的图像标题生成模型的训练方法,通过计算每个 token 的优势和值实现直接优化语言质量指标,取得了在 MSCOCO 数据集上的最先进性能。
Jun, 2017
本文提出了一种深度学习方法来解决自动摘要任务,通过将主题信息结合到卷积序列到序列 (ConvS2S) 模型中,并使用自举式非监督序列训练 (SCST) 进行优化。通过联合关注主题和单词级别对齐,我们的方法可以通过有偏的概率生成机制改善生成摘要的一致性、多样性和信息量。与 SCST 类似的强化训练直接根据不可微度量 ROUGE 优化所提出的模型,在推理期间也避免了曝光偏差。我们在 Gigaword、DUC-2004 和 LCSTS 数据集上对最先进的方法进行了实验评估。实证结果证明了我们所提出的抽象摘要方法的优越性。
May, 2018
通过对序列到序列模型进行不断松弛极值操作,结合 Bengio 等人的 sample scheduled 采用新的连续可微方法,获得可为贴在所有点求导的梯度,从而在命名实体识别、机器翻译等任务中优于交叉熵训练与 sample scheduled。
Apr, 2017