可控长度的图像描述生成

ECCVJul, 2020

Length-Controllable Image Captioning

Chaorui Deng, Ning Ding, Mingkui Tan, Qi Wu

TL;DR本文提出了一种基于长度级别嵌入的、具备控制图像描述语言能力的、非自回归图像描述模型，实验证明该模型在 MS COCO 数据集上不仅实现了 SOTA 水平，还能够生成长度可控、多样化的图像描述。

Abstract

The last decade has witnessed remarkable progress in the image captioning task; however, most existing methods cannot control their captions, \emph{e.g.}, choosing to describe the image either roughly or in detail. In this paper, we propose to use a simple →

image captioning length level embedding non-autoregressive approach controllability diverse captions

发现论文，激发创造

半自回归式图像字幕

该研究提出了一种新的两阶段模型，称为半自回归图像字幕生成模型，使用部分先验信息和图像特征，先以自回归方式生成一个间歇性序列，然后使用迭代的非自回归方式填充所有跳过的单词，可以更好地权衡性能和速度，并在 MS COCO 基准测试上得到更好的表现和竞争性推理加速。

Oct, 2021

通过摘要原型引导的长度可控抽象摘要

本文提出了一种新的长度可控的抽象汇总模型，与以往仅根据编码器 - 解码器模型生成一篇总结不同，我们的模型在编码器 - 解码器模型中结合了单词级别的抽取模块，通过提取重要的词来控制长度，生成了一个同时具有信息和长度控制的汇总。

Jan, 2020

非自回归式的粗到细视频字幕

本文提出了一种非自回归解码的模型，使用基于双向自注意力的语言模型来加速推理，生成视频字幕的过程分为两个阶段，通过迭代的修改，得到高质量的细致视频描述，大量实验表明该方法达到了最先进的性能，并获得了高推理效率。

Nov, 2019

掩码非自回归图像字幕生成

本文提出了一种基于遮码机制的非自回归解码模型，用于生成图像标题。实验结果表明，该模型可以更有效地保留语义内容并生成更多样化的标题。

Jun, 2019

图像描述生成的宏观控制

本论文提出了两种新方法来改善图像字幕模型的多样性、可控性和句子生成质量，并使用图像文本匹配模型来选择更好的句子。实验结果表明，这些方法可以显著提高模型的性能。

Jan, 2021

卷积图像描述

本文提出了一种卷积图像字幕生成技术，并在 MSCOCO 数据集上展示了其与基准模型相媲美的性能，同时具有更快的训练时间和更少的参数数量。作者还对其模型的优点进行了详细分析，提出了卷积语言生成方法的有力证据。

Nov, 2017

利用字幕的关注语义视频生成

该研究提出了一种网络架构，利用标题执行可变长度的语义视频生成。网络能够区分视频中的对象，动作和交互，并将它们与长期和短期依赖结合起来，以增量方式生成视频。网络通过学习潜在表示对视频进行无监督生成，并在执行其他任务时表现出了良好的能力，如动作识别和空时样式转移。

Aug, 2017

具有位置对齐的快速图像字幕生成

提出了一种非自回归解码框架用于图片描述，该框架使用位置对齐和推理策略来指导更进一步的句子生成，实验结果表明此模型相对于自回归模型有显著的加速效果，并且相较于 NA 模型有更好的表现。

Dec, 2019

实体感知图像标题生成

提出了一种基于 CNN-LSTM 模型和知识图的算法来解决图像描述中缺少特定信息的问题，该模型通过填充来自于 hashtags 的具体命名实体，使得生成的基于输入图像的模板描述信息更加丰富，实验结果表明该模型在多种评价指标上显著优于单模态基准线。

Apr, 2018

CNN+CNN：用于图像字幕生成的卷积解码器

本文在图像字幕生成方面，提出了一种仅利用卷积神经网络生成字幕的框架，通过并行计算，训练速度比基于 LSTM 的模型快 3 倍，同时在 MSCOCO 图像字幕数据集上获得了比 LSTM 更高的评估得分。

May, 2018