序列级探索提高字幕生成质量

CVPRMar, 2020

Better Captioning with Sequence-Level Exploration

Jia Chen, Qin Jin

TL;DR本文讨论了当前序列级别的学习目标在字幕任务中的局限性，通过理论和实证结果表明当前目标在优化模型生成的字幕的准确率方面表现优异，但是忽略了召回率。为此，我们提出了一个序列级别探索项来提高模型字幕的召回率，实验表明这种方法对图像和视频字幕数据集都很有效。

Abstract

sequence-level learning objective has been widely used in captioning tasks to achieve the state-of-the-art performance for many models. In this objective, the model is trained by the reward on the quality of its

sequence-level learning objective captioning tasks precision recall exploration term

发现论文，激发创造

序列型演员 - 评论家算法在图像字幕生成中的应用

本研究探究了基于 actor-critic 强化学习的图像标题生成模型的训练方法，通过计算每个 token 的优势和值实现直接优化语言质量指标，取得了在 MSCOCO 数据集上的最先进性能。

Jun, 2017

部分监督图像字幕生成

通过有标签的图片和物体检测数据教授图像字幕模型学习新的视觉概念，通过有限状态自动机表示部分指定的序列数据并提出了一种新颖的算法，可以训练神经网络。在图像字幕任务中，我们取得了基于 COCO 数据集的最新物体字幕任务的最先进结果，并进一步表明，我们可以训练一个字幕模型来描述来自 Open Images 数据集的新的视觉概念，同时保持竞争性的 COCO 评估得分。

Jun, 2018

基于推理和序列级训练的图像描述生成

本文探讨了图标题问题，提出了一个基于 FigureQA 数据集的新数据集 FigCAP，同时提出了 Label Maps Attention 和 Relation Maps Attention 两种新型关注机制，以及采用强化学习进行序列级训练以优化评估指标，从而改善长标题的生成并在广泛实验中取得显著优于基线的表现，具有自动生成各种图形标签的巨大潜力。

Jun, 2019

基于自然语言的目标描述和检索

本文介绍了一种基于对象描述的联合学习视觉和语言以深入了解对象的方法，并提出了两个新的架构来解决对象字幕和基于自然语言的对象检索单元。研究表明，使用混合的端到端 CNN-LSTM 网络可以有效地解决两个问题，并在推理时间非常快的同时，提供了对对象的详细理解。

Mar, 2018

图像字幕的自我批判序列训练

本研究通过自我批判的序列训练 (SCST) 优化了图像说明系统，采用强化学习的政策梯度方法直接训练系统，并使用 MSCOCO 测试指标，使性能显著提高，实现了针对端到端系统直接优化非可微分度量的目标。

Dec, 2016

深度学习中的栈式字幕生成：图像字幕学习的粗到细的逐层逼近学习

本文提出了一种粗到细的多阶段图像字幕预测框架，利用多个解码器，每个解码器在前一阶段的输出上操作，产生越来越精细的图像描述，优化模型的方法采用了一种强化学习方法，通过利用每个中间解码器的测试推理算法的输出，同时解决了暴露偏差问题和损失评估不匹配的问题，对 MSCOCO 进行广泛评估，并表明我们的方法可以实现最先进的性能。

Sep, 2017

运用知识蒸馏的时空图像处理技术进行视频字幕生成

本文提出一种基于时空图模型的视频字幕生成算法，利用物体间相互作用关系提供显式的视觉表征，通过一种对象感知的知识蒸馏机制，可以在不稳定的性能中实现对象的稳定预测。经过对两个基准测试的广泛实验，展示了我们方法的有效性和可解释性预测的竞争性能。

Mar, 2020

基于分层强化学习的视频字幕生成

本文提出了一种新颖的分层强化学习框架，用于视频字幕生成，该框架让高级管理器模块学习设计子目标，低级工作模块识别基本动作以实现子目标，实验证明我们的方法在细粒度视频字幕生成方面优于其他基线方法，并在已广泛使用的 MSR-VTT 数据集上达到了最佳效果。

Nov, 2017

基于深度强化学习的图像字幕生成及嵌入奖励

本文介绍了一种新的图像字幕生成框架，利用决策制定的方式，使用多种神经网络和加强学习算法协同生成字幕，并在 Microsoft COCO 数据集上表现良好。

Apr, 2017

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020