图像字幕的自我批判序列训练

CVPRDec, 2016

Self-critical Sequence Training for Image Captioning

Steven J. Rennie, Etienne Marcheret, Youssef Mroueh, Jarret Ross, Vaibhava Goel

TL;DR本研究通过自我批判的序列训练 (SCST) 优化了图像说明系统，采用强化学习的政策梯度方法直接训练系统，并使用 MSCOCO 测试指标，使性能显著提高，实现了针对端到端系统直接优化非可微分度量的目标。

Abstract

Recently it has been shown that policy-gradient methods for reinforcement learning can be utilized to train deep end-to-end systems directly on non-differentiable metrics for the task at hand. In this paper we consider the problem of optimizing →

policy-gradient methods reinforcement learning image captioning self-critical sequence training test metrics

发现论文，激发创造

用于改善图像字幕的对抗语义对齐

本文提出了一种基于有上下文的 LSTM 描述生成器和协同对抗网络鉴别器的图像描述生成方法，并比较了两种训练方法，结果表明 Self-critical Sequence Training 表现更好；同时，介绍了一种用于衡量生成模型的语义得分，构建了 OOC 数据集来检测生成器的泛化能力与语义相似度。

Apr, 2018

自我批评序列训练用于自动语音识别

本文提出了一种基于损失函数和词错误率的奖励函数的增强学习方法 —— 自我关键序列训练 (SCST) 来解决自动语音识别中的若干问题，取得了 8.7% 和 7.8% 的词错误率相对改进。

Apr, 2022

序列型演员 - 评论家算法在图像字幕生成中的应用

本研究探究了基于 actor-critic 强化学习的图像标题生成模型的训练方法，通过计算每个 token 的优势和值实现直接优化语言质量指标，取得了在 MSCOCO 数据集上的最先进性能。

Jun, 2017

一种加强主题感知的卷积序列到序列模型用于抽象文本摘要

本文提出了一种深度学习方法来解决自动摘要任务，通过将主题信息结合到卷积序列到序列 (ConvS2S) 模型中，并使用自举式非监督序列训练 (SCST) 进行优化。通过联合关注主题和单词级别对齐，我们的方法可以通过有偏的概率生成机制改善生成摘要的一致性、多样性和信息量。与 SCST 类似的强化训练直接根据不可微度量 ROUGE 优化所提出的模型，在推理期间也避免了曝光偏差。我们在 Gigaword、DUC-2004 和 LCSTS 数据集上对最先进的方法进行了实验评估。实证结果证明了我们所提出的抽象摘要方法的优越性。

May, 2018

图像字幕的自我批判 n 步训练

本文探讨了如何使用无参数评估器来估计图像字幕生成中的状态值，并使用重构的优势函数进行 N 步训练，这种方法相对于 MSCOCO 数据集上的序列级优势和参数化估值方法能够取得更好的性能表现。

Apr, 2019

针对优化不可分解指标的成本敏感型自训练

本研究介绍了一种 Cost-Sensitive Self-Training 框架，可以更好地利用未标记数据来优化非可分解指标，从而获得更好的半监督学习方法。该框架可应用于视觉和自然语言处理任务，并在多个数据集和指标上取得了优于现有方法的结果。

Apr, 2023

一种更好的自举式序列训练变体

本论文介绍了一种改进的自我监督时序训练思想，通过在 REINFORCE 算法中改变基准函数的选择来提高性能，与贪婪解码基准相比没有额外的成本。

Mar, 2020

独特的图像字幕化：借助 CLIP 引导强化学习的基准真实字幕

用训练图像字幕模型的教师强迫方法生成的样本非常通用，而更具有独特性的字幕对于检索应用或生成描述图像的替代文本以提高可访问性非常有用。这篇论文提出了一种新的图像字幕模型训练策略，其中利用了不同方式的真实字幕，从而在保持高写作质量的同时生成高度独特的字幕。

Feb, 2024

使用通用强化学习实现图像变换序列检索

本文介绍了图像变换序列检索（ITSR）任务，提出一种基于强化学习的解决方案，即 Monte Carlo 树搜索（MCTS）和深度神经网络相结合的模型训练方法，并通过实验结果证明其效果优于监督训练。

Jul, 2023

通过提炼图像 - 文本匹配模型，实现更加扎实的图像字幕生成

本研究提出了一种基于 Part-of-Speech 增强图像 - 文本匹配模型的方法（称为 POS-SCAN），以提高图像字幕准确性，并且探讨了图像 - 文本匹配分数作为奖励用于更加接近实际对象的图像字幕训练。

Apr, 2020