基于词性引导的快速、多样化和准确的图像字幕生成

CVPRMay, 2018

基于词性引导的快速、多样化和准确的图像字幕生成

Fast, Diverse and Accurate Image Captioning Guided By Part-of-Speech

Aditya Deshpande, Jyoti Aneja, Liwei Wang, Alexander Schwing, D. A. Forsyth

TL;DR本文提出了一种新的图像描述生成方法，先预测图像的意思概要，再基于该概要生成文本，相比于传统 beam search 的方法，本文方法在文本多样性、计算效率和生成的描述准确性方面都有明显提高。

Abstract

image captioning is an ambiguous problem, with many suitable captions for an image. To address ambiguity, beam search is the de facto method for sampling multiple captions. However, →

image captioning beam search variational auto-encoder generative adversarial net diverse captions

发现论文，激发创造

注意力束：一种图像字幕方法

通过加入启发式的 beam search 策略，我们在基于 encoder-decoder 的架构上取得了比较好的效果，成功地完成了图像描述生成任务。

Nov, 2020

通过内容多样性探索实现准确的基于文本的图像描述

本文提出了一种基于锚文本和锚中心图的多视角多解释图像说明生成方法，以提高生成说明的多样性和准确性。

Apr, 2021

用于多样图片字幕中目的建模的连续潜在空间

通过 Seq-CVAE 模型，学习每一个单词位置的潜在空间，并仿照一个将来总结的表示来鼓励这个时间上的潜在空间捕捉如何完成句子的 “意图”，并在 MSCOCO 数据集上表现出了显著的多样性改进指标，同时在句子质量方面达到了同等水平。

Aug, 2019

从图像中生成多样且连贯的段落

通过使用 “连贯向量”、“全局主题向量” 和变分自动编码器对段落生成技术进行增强，以解决图像关联性固有的歧义性，本文在两个数据集上比现有最先进技术表现更为出色。

Sep, 2018

通过对抗式学习生成多样且准确的视觉描述

提出一种基于条件生成对抗网络的比较式对抗学习框架，能够在图像描述任务中生成不仅准确而且多样化的描述语句。

Apr, 2018

受导引的基于开放词汇的图像描述生成与约束束搜索

使用约束束搜索的方法和固定的预训练词嵌入，使得现有的深度图像描述模型能够利用图像标签器在测试阶段进行标注，从而实现新颖场景或对象的图像生成。该方法的结果表明了它在 MSCOCO 上获得了良好的表现，甚至优于采用相同标签预测的学习算法。同时，我们还证明了我们可以通过利用 ground-truth 标签来显着提高生成的 ImageNet 标题的质量。

Dec, 2016

通过条件 GAN 实现多样化和自然化的图像描述

该研究旨在通过使用基于条件生成对抗网络（CGAN）的新框架来提高图像字幕生成的自然性和多样性，其中一个生成器可以根据图像生成描述，并使用一个评估器来评估描述与视觉内容的匹配程度。

Mar, 2017

使用具有加性高斯编码空间的变分自编码器的多样且准确的图像描述

本论文探讨了使用条件变分自编码器（CVAEs）生成图像字幕。我们提出了两种模型，分别基于高斯混合模型（GMM）假设和一种线性组合均值的新型加性高斯（AG）假设来构造潜在空间，从而创造多种内容类型的图像的先验分布。与 LSTM 基线或 “vanilla” CVAE 相比，我们展示了这两种模型产生了更多样化和更准确的字幕，特别是 AG-CVAE 表现得尤为优异。

Nov, 2017

展示并告诉：神经图像字幕生成器

本文提出了基于深度递归架构的生成模型，结合计算机视觉和机器翻译的最新进展，将图像描述为自然语言的句子，实验结果表明了模型的准确性和流畅性。

Nov, 2014

生成问题相关的字幕以帮助视觉问答

该文介绍了一种新的方法来提高视觉问题回答的性能，该方法利用深度学习的技术，结合语言和视觉的普适性知识来生成针对特定视觉问题的图像描述，并利用在线梯度方法自动确定与问题相关的描述来训练模型，实验结果表明，本方法取得了视觉问题回答领域的最新成果。

Jun, 2019