一种更好的自举式序列训练变体

Mar, 2020

A Better Variant of Self-Critical Sequence Training

Ruotian Luo

TL;DR本论文介绍了一种改进的自我监督时序训练思想，通过在 REINFORCE 算法中改变基准函数的选择来提高性能，与贪婪解码基准相比没有额外的成本。

Abstract

In this work, we present a simple yet better variant of Self-Critical Sequence Training. We make a simple change in the choice of baseline function in reinforce algorithm. The new baseline can bring better

self-critical sequence training baseline function reinforce algorithm performance greedy decoding

发现论文，激发创造

图像字幕的自我批判序列训练

本研究通过自我批判的序列训练 (SCST) 优化了图像说明系统，采用强化学习的政策梯度方法直接训练系统，并使用 MSCOCO 测试指标，使性能显著提高，实现了针对端到端系统直接优化非可微分度量的目标。

Dec, 2016

自我批评序列训练用于自动语音识别

本文提出了一种基于损失函数和词错误率的奖励函数的增强学习方法 —— 自我关键序列训练 (SCST) 来解决自动语音识别中的若干问题，取得了 8.7% 和 7.8% 的词错误率相对改进。

Apr, 2022

图像字幕的自我批判 n 步训练

本文探讨了如何使用无参数评估器来估计图像字幕生成中的状态值，并使用重构的优势函数进行 N 步训练，这种方法相对于 MSCOCO 数据集上的序列级优势和参数化估值方法能够取得更好的性能表现。

Apr, 2019

循环神经网络中的序列级别训练

提出了一种新的序列级训练算法，使自然语言处理应用程序使用的语言模型在生成文本时更加强大和高效。这种方法能够直接优化在测试期间使用的指标，并且在三个不同的任务中，我们的方法优于其他几种基准方法。同时，在其他基准方法使用波束搜索时，我们的方法也具有竞争力，而且速度快几倍。

Nov, 2015

序列预测的演员 - 评论家算法

本文介绍了一种使用强化学习中的 Actor-Critic 方法来训练神经网络生成序列的方法，利用 Critic 网络来预测输出 token 的值，使得我们可以直接优化诸如 BLEU 等任务特定分数，实现了在监督学习环境下条件 Critic 网络的优化，从而在德语 - 英语机器翻译任务和一些自然语言生成任务中表现出更好的性能。

Jul, 2016

通过学习自我纠正生成序列

本文介绍了一种称为 Self-Correction 的方法，该方法可以用于解决序列生成应用中存在的语义约束问题，该方法通过将完美的基本生成器与学习逐步纠正其输出的单独的纠正器分离来实现。我们证明，即使纠正器比基本生成器小得多，在数学程序合成、词汇约束生成和毒性控制等三个不同的生成任务上，Self-Correction 仍然优于基本生成器。

Oct, 2022

通过解码干预提升 Seq2Seq 语法错误修正

我们提出了一种统一的解码干预框架，利用外部评论家来评估逐步生成的令牌的适当性，并在动态影响下一个令牌的选择。通过在英语和中文数据集上进行广泛实验，我们的框架始终优于强基准线，并达到与最先进方法相媲美的结果。

Oct, 2023

序列型演员 - 评论家算法在图像字幕生成中的应用

本研究探究了基于 actor-critic 强化学习的图像标题生成模型的训练方法，通过计算每个 token 的优势和值实现直接优化语言质量指标，取得了在 MSCOCO 数据集上的最先进性能。

Jun, 2017

一种加强主题感知的卷积序列到序列模型用于抽象文本摘要

本文提出了一种深度学习方法来解决自动摘要任务，通过将主题信息结合到卷积序列到序列 (ConvS2S) 模型中，并使用自举式非监督序列训练 (SCST) 进行优化。通过联合关注主题和单词级别对齐，我们的方法可以通过有偏的概率生成机制改善生成摘要的一致性、多样性和信息量。与 SCST 类似的强化训练直接根据不可微度量 ROUGE 优化所提出的模型，在推理期间也避免了曝光偏差。我们在 Gigaword、DUC-2004 和 LCSTS 数据集上对最先进的方法进行了实验评估。实证结果证明了我们所提出的抽象摘要方法的优越性。

May, 2018

可微分的计划采样用于信用分配

通过对序列到序列模型进行不断松弛极值操作，结合 Bengio 等人的 sample scheduled 采用新的连续可微方法，获得可为贴在所有点求导的梯度，从而在命名实体识别、机器翻译等任务中优于交叉熵训练与 sample scheduled。

Apr, 2017