非自回归式的粗到细视频字幕

AAAINov, 2019

Non-Autoregressive Coarse-to-Fine Video Captioning

Bang Yang, Yuexian Zou, Fenglin Liu, Can Zhang

TL;DR本文提出了一种非自回归解码的模型，使用基于双向自注意力的语言模型来加速推理，生成视频字幕的过程分为两个阶段，通过迭代的修改，得到高质量的细致视频描述，大量实验表明该方法达到了最先进的性能，并获得了高推理效率。

Abstract

It is encouraged to see that progress has been made to bridge videos and natural language. However, mainstream video captioning methods suffer from slow inference speed due to the sequential manner of autoregressive decoding, and prefer generating generic descriptions due to the insuff

video captioning language model non-autoregressive decoding visual words inference efficiency

发现论文，激发创造

掩码非自回归图像字幕生成

本文提出了一种基于遮码机制的非自回归解码模型，用于生成图像标题。实验结果表明，该模型可以更有效地保留语义内容并生成更多样化的标题。

Jun, 2019

具有位置对齐的快速图像字幕生成

提出了一种非自回归解码框架用于图片描述，该框架使用位置对齐和推理策略来指导更进一步的句子生成，实验结果表明此模型相对于自回归模型有显著的加速效果，并且相较于 NA 模型有更好的表现。

Dec, 2019

深度学习中的栈式字幕生成：图像字幕学习的粗到细的逐层逼近学习

本文提出了一种粗到细的多阶段图像字幕预测框架，利用多个解码器，每个解码器在前一阶段的输出上操作，产生越来越精细的图像描述，优化模型的方法采用了一种强化学习方法，通过利用每个中间解码器的测试推理算法的输出，同时解决了暴露偏差问题和损失评估不匹配的问题，对 MSCOCO 进行广泛评估，并表明我们的方法可以实现最先进的性能。

Sep, 2017

半自回归式图像字幕

该研究提出了一种新的两阶段模型，称为半自回归图像字幕生成模型，使用部分先验信息和图像特征，先以自回归方式生成一个间歇性序列，然后使用迭代的非自回归方式填充所有跳过的单词，可以更好地权衡性能和速度，并在 MS COCO 基准测试上得到更好的表现和竞争性推理加速。

Oct, 2021

视频字幕解码器的深度挖掘

本篇研究针对视频字幕模型的解码问题，通过三种技术改进模型的性能，包括使用变分 Dropout 和层归一化改善过拟合问题、提出在线评估模型性能以选择最佳测试检查点的方法、提出专业学习的新训练策略。在 Microsoft Research Video Description Corpus (MSVD) 和 MSR-Video to Text (MSR-VTT) 数据集上进行的实验证明，相较于之前最先进的模型，我们的模型在 BLEU、CIDEr、METEOR 和 ROUGE-L 指标上获得了显著的成果，其中在 MSVD 数据集上提升了高达 18%，在 MSR-VTT 数据集上提升了 3.5%。

Jan, 2020

基于分层强化学习的视频字幕生成

本文提出了一种新颖的分层强化学习框架，用于视频字幕生成，该框架让高级管理器模块学习设计子目标，低级工作模块识别基本动作以实现子目标，实验证明我们的方法在细粒度视频字幕生成方面优于其他基线方法，并在已广泛使用的 MSR-VTT 数据集上达到了最佳效果。

Nov, 2017

O2NA：一种用于可控视频字幕生成的面向对象非自回归方法

本文介绍了一种基于物体的非自回归方法 (O2NA) 用于视频字幕生成，它包括确定聚焦对象，生成草案字幕，以及将视频信息与草案字幕结合以生成最终流畅字幕等步骤，实验结果表明 O2NA 在 MSR-VTT 和 MSVD 两个基准数据数据集上具有与现有最先进技术相当的结果，但具有更高的多样性和推理速度。

Aug, 2021

序列模型的快速结构化解码

非自回归序列模型为了减少推理时间，通常会假定每个单词的生成过程彼此独立，但这会导致结果不一致。本文提出了一种结构化推理模块，使用高效的 CRF 近似算法来建模动态转换技术，以提高翻译的一致性，并在不影响推理速度的前提下，显著提高了翻译性能。

Oct, 2019

通过时间聚合和循环实现深度盲视频去马赛克

本文提出了一个基于编码器 - 解码器模型的快速视频字幕去除框架，使用多个源帧和残差连接来处理视频中的遮挡和缺失，进一步通过循环反馈实现对时间上的连续性和缺失像素位置的准确预测，实现了实时的视频去字幕操作。

May, 2019

边界与填充：一种快速灵活的图像描述框架

基于边界和填充技术的快速灵活图像标题生成模型 BoFiCap 在不自回归和半自回归方式下，在性能需求与速度上均取得了令人瞩目的结果。

Oct, 2023