文本条件注意力图像字幕生成

Jun, 2016

Watch What You Just Said: Image Captioning with Text-Conditional Attention

Luowei Zhou, Chenliang Xu, Parker Koch, Jason J. Corso

TL;DR提出了一种名为文本条件注意力的新型注意力机制，它允许生成器在给定先前生成的文本的情况下专注于特定的图像特征，通过在一个端到端的网络结构中联合学习图像嵌入，文本嵌入，文本条件注意力和语言模型。在 MS-COCO 数据集上进行了大量实验，实验结果表明，该方法在各种定量指标以及人类评估方面均优于现有的图像字幕方法，这支持了在图像字幕中使用文本条件注意力的应用。

Abstract

Attention mechanisms have attracted considerable interest in image captioning due to its powerful performance. However, existing methods use only visual content as attention and whether textual context can improve attention in image captioning remains unsolved. To explore this problem,

attention mechanism image captioning text-conditional attention glstm captioning architecture ms-coco dataset

发现论文，激发创造

基于文本引导的图像字幕注意力模型

本研究提出了一种基于文本引导注意力模型的图像字幕生成方法，其能够通过联合图片及相应说明文本的训练数据来实现视觉关注，有效地区分图像中的细小或混淆对象，进而在 MS-COCO 图像字幕生成基准测试中获得最佳性能。

Dec, 2016

基于主题引导的图像描述注意力模型

本文提出了一种新的注意力机制，称为主题引导注意力，在图像字幕生成中应用，通过将图像主题整合到注意力模型中作为指导信息，协助选择最重要的图像特征。在微软 COCO 数据集上的实验结果表明，该方法在各种定量指标上具有最先进的性能。

Jul, 2018

预训练的 CNN 与基于 GRU 的注意力机制在图像标题生成中的比较研究

使用深度神经网络和 GRU 注意机制对图像进行描述生成的研究提出了一种深度神经网络框架，通过多个预训练的卷积神经网络作为编码器从图像中提取特征，并使用 GRU 语言模型作为解码器生成描述性句子。通过将 Bahdanau 注意模型与 GRU 解码器集成，我们的方法提高了性能，并在 MSCOCO 和 Flickr30k 数据集上展示出与最先进方法相比具有优势的分数。我们提出的框架可以弥合计算机视觉和自然语言之间的差距，并可以扩展到特定领域。

Oct, 2023

多面向注意力的视频字幕生成

本文提出了一种新的视频字幕生成方法，利用多种视觉特征和语义属性的层次，采用 LSTM 网络进行句子生成，实现自动选取最突出的视觉特征或语义属性，有望提高字幕生成的精确度。实验结果表明，该框架胜过现有最先进的方法，并可进一步提升精度至近于人类水平。

Dec, 2016

基于 GRU 注意机制的图像字幕生成的深度神经网络框架

本研究旨在利用预先训练的卷积神经网络，结合注意力机制和循环神经网络，将图像特征与语言模型相结合，实现图像描述生成。实验结果与现有先进方法相比，具有竞争性的性能。

Mar, 2022

注重显著性：使用显著性和上下文注意力进行图像字幕生成

本文提出了一种基于生成循环神经网络的图像字幕方法，它可以利用一个显著性预测模型在生成字幕时集中于图像不同的部分，并通过大规模数据集上的广泛定量和定性实验证明该模型相比不带显著性和不同的最先进的显著性与字幕结合方法具有卓越的性能。

Jun, 2017

强化注意力：利用人类的注意力进行图像字幕生成

使用两种类型的注意力机制：从上至下的语言传达信息和自底向上的视觉信号，通过提出 Boosted Attention 模型实现将它们整合在图像字幕生成任务中，从而提高了效果。

Mar, 2019

具有调整时序注意力的分层 LSTM 用于视频字幕生成

通过引入 hierarchical LSTM 和 adjusted temporal attention 的方式，利用 temporal attention 来选择特定的帧来预测相关的单词，并决定是否及如何利用视觉和语言上下文信息，以支持视频字幕生成的多层次模型设计，最终在 MSVD 和 MSR-VTT 数据集上优于现有方法。

Jun, 2017

使用视觉注意力的神经图像字幕生成

该论文介绍了一种基于注意力机制的模型，通过机器翻译和物体检测实现图像内容的自动描述，通过最大化变分下界确定性训练该模型，并展示了该模型在生成输出序列时能够自动学习聚焦于显著物体。三个基准数据集上的性能表现也证明了该模型的有效性。

Feb, 2015

自适应注意力的分层 LSTM 用于视觉字幕生成

通过引入自适应注意力机制以及分层 LSTM（Hierarchical LSTM），提出了一种基于注意力的编码器 - 解码器框架，并在图像和视频描述生成领域通过应用空间或时间注意力机制进行预测。实验表明所提出的框架在图像和视频描述生成任务中均取得了最先进的性能，同时还充分探讨了其各个组成部分的重要贡献。

Dec, 2018