具有位置对齐的快速图像字幕生成
本文提出了一种非自回归解码的模型,使用基于双向自注意力的语言模型来加速推理,生成视频字幕的过程分为两个阶段,通过迭代的修改,得到高质量的细致视频描述,大量实验表明该方法达到了最先进的性能,并获得了高推理效率。
Nov, 2019
该研究提出了一种新的两阶段模型,称为半自回归图像字幕生成模型,使用部分先验信息和图像特征,先以自回归方式生成一个间歇性序列,然后使用迭代的非自回归方式填充所有跳过的单词,可以更好地权衡性能和速度,并在 MS COCO 基准测试上得到更好的表现和竞争性推理加速。
Oct, 2021
本文提出了一种 Non-Autoregressive Image Captioning(NAIC)模型,采用一种新的训练范式:Counterfactuals-critical Multi-Agent Learning(CMAL),将其制定为多智能体强化学习系统,经过对大规模未标记图像的实验表明,该模型实现了与最先进的自回归模型可比的性能,同时速度提高了 13.9 倍。
May, 2020
本研究提出了一种名为 ReorderNAT 的新型非自回归神经机器翻译框架,该框架利用可确定性和不确定性解码战略以缩小解码空间,从而更好地模拟了编码过程中的重新排序信息,实验结果表明,该模型在各种广泛使用的数据集上表现出更好的性能,并且通过显着的加速实现了与自回归翻译模型相媲美的翻译质量。
Nov, 2019
非自回归序列模型为了减少推理时间,通常会假定每个单词的生成过程彼此独立,但这会导致结果不一致。本文提出了一种结构化推理模块,使用高效的 CRF 近似算法来建模动态转换技术,以提高翻译的一致性,并在不影响推理速度的前提下,显著提高了翻译性能。
Oct, 2019
本文介绍了一种基于物体的非自回归方法 (O2NA) 用于视频字幕生成,它包括确定聚焦对象,生成草案字幕,以及将视频信息与草案字幕结合以生成最终流畅字幕等步骤,实验结果表明 O2NA 在 MSR-VTT 和 MSVD 两个基准数据数据集上具有与现有最先进技术相当的结果,但具有更高的多样性和推理速度。
Aug, 2021
本文提出了一种基于 BERT 的非自回归文本生成模型,通过引入新的解码策略(ratio-first)以及机制来解决 NAG 模型中的两个问题,并在三个文本生成任务上进行全面评估,证明该模型在速度和性能上均优于现有的非自回归基线模型,在许多强自回归模型上也取得了有竞争力的性能.
Feb, 2021
本文提出了一种粗到细的多阶段图像字幕预测框架,利用多个解码器,每个解码器在前一阶段的输出上操作,产生越来越精细的图像描述,优化模型的方法采用了一种强化学习方法,通过利用每个中间解码器的测试推理算法的输出,同时解决了暴露偏差问题和损失评估不匹配的问题,对 MSCOCO 进行广泛评估,并表明我们的方法可以实现最先进的性能。
Sep, 2017