具有位置对齐的快速图像字幕生成

AAAIDec, 2019

具有位置对齐的快速图像字幕生成

Fast Image Caption Generation with Position Alignment

Zheng-cong Fei

TL;DR提出了一种非自回归解码框架用于图片描述，该框架使用位置对齐和推理策略来指导更进一步的句子生成，实验结果表明此模型相对于自回归模型有显著的加速效果，并且相较于 NA 模型有更好的表现。

Abstract

Recent neural network models for image captioning usually employ an encoder-decoder architecture, where the decoder adopts a recursive sequence decoding way. However, such autoregressive decoding may result in se

image captioning neural network models non-autoregressive decoding position alignment inference strategy

发现论文，激发创造

掩码非自回归图像字幕生成

本文提出了一种基于遮码机制的非自回归解码模型，用于生成图像标题。实验结果表明，该模型可以更有效地保留语义内容并生成更多样化的标题。

Jun, 2019

非自回归式的粗到细视频字幕

本文提出了一种非自回归解码的模型，使用基于双向自注意力的语言模型来加速推理，生成视频字幕的过程分为两个阶段，通过迭代的修改，得到高质量的细致视频描述，大量实验表明该方法达到了最先进的性能，并获得了高推理效率。

Nov, 2019

半自回归式图像字幕

该研究提出了一种新的两阶段模型，称为半自回归图像字幕生成模型，使用部分先验信息和图像特征，先以自回归方式生成一个间歇性序列，然后使用迭代的非自回归方式填充所有跳过的单词，可以更好地权衡性能和速度，并在 MS COCO 基准测试上得到更好的表现和竞争性推理加速。

Oct, 2021

非自回归图像描述生成与反事实关联 - 关键多智能体学习

本文提出了一种 Non-Autoregressive Image Captioning（NAIC）模型，采用一种新的训练范式：Counterfactuals-critical Multi-Agent Learning（CMAL），将其制定为多智能体强化学习系统，经过对大规模未标记图像的实验表明，该模型实现了与最先进的自回归模型可比的性能，同时速度提高了 13.9 倍。

May, 2020

非自回归句子排序

提出了一种新颖的非自回归排序网络，探索了句子之间的双边依赖并并行预测每个位置的句子，实验证明该模型在句子排序任务中优于自回归方法并具有竞争性的性能。

Oct, 2023

利用排序信息指导非自回归神经机器翻译解码

本研究提出了一种名为 ReorderNAT 的新型非自回归神经机器翻译框架，该框架利用可确定性和不确定性解码战略以缩小解码空间，从而更好地模拟了编码过程中的重新排序信息，实验结果表明，该模型在各种广泛使用的数据集上表现出更好的性能，并且通过显着的加速实现了与自回归翻译模型相媲美的翻译质量。

Nov, 2019

序列模型的快速结构化解码

非自回归序列模型为了减少推理时间，通常会假定每个单词的生成过程彼此独立，但这会导致结果不一致。本文提出了一种结构化推理模块，使用高效的 CRF 近似算法来建模动态转换技术，以提高翻译的一致性，并在不影响推理速度的前提下，显著提高了翻译性能。

Oct, 2019

O2NA：一种用于可控视频字幕生成的面向对象非自回归方法

本文介绍了一种基于物体的非自回归方法 (O2NA) 用于视频字幕生成，它包括确定聚焦对象，生成草案字幕，以及将视频信息与草案字幕结合以生成最终流畅字幕等步骤，实验结果表明 O2NA 在 MSR-VTT 和 MSVD 两个基准数据数据集上具有与现有最先进技术相当的结果，但具有更高的多样性和推理速度。

Aug, 2021

预训练语言模型的非自回归式文本生成

本文提出了一种基于 BERT 的非自回归文本生成模型，通过引入新的解码策略（ratio-first）以及机制来解决 NAG 模型中的两个问题，并在三个文本生成任务上进行全面评估，证明该模型在速度和性能上均优于现有的非自回归基线模型，在许多强自回归模型上也取得了有竞争力的性能.

Feb, 2021

深度学习中的栈式字幕生成：图像字幕学习的粗到细的逐层逼近学习

本文提出了一种粗到细的多阶段图像字幕预测框架，利用多个解码器，每个解码器在前一阶段的输出上操作，产生越来越精细的图像描述，优化模型的方法采用了一种强化学习方法，通过利用每个中间解码器的测试推理算法的输出，同时解决了暴露偏差问题和损失评估不匹配的问题，对 MSCOCO 进行广泛评估，并表明我们的方法可以实现最先进的性能。

Sep, 2017