图像字幕注意力区域

ICCVDec, 2016

Areas of Attention for Image Captioning

Marco Pedersoli, Thomas Lucas, Cordelia Schmid, Jakob Verbeek

TL;DR提出了基于注意力机制的图像描述模型，该模型使用三种成对的交互来建立图像区域、描述文本和 RNN 语言模型之间的依赖关系，并运用空间变换器来生成最佳的区域关注机制，达到了 MSCOCO 数据集上的最佳结果。

Abstract

We propose "Areas of Attention", a novel attention-based model for automatic image captioning. Our approach models the dependencies between image regions, caption words, and the state of an →

attention-based model image captioning rnn language model weakly-supervised object detector training spatial transformers

发现论文，激发创造

区域注意力

提出了一种新的面积关注机制，即区域关注，使模型能够动态决定区域的形状和大小以关注不同粒度的信息，可以应用于神经机器翻译和图像字幕生成等任务中，并取得了强于现有状态的良好实验结果。

Oct, 2018

基于文本引导的图像字幕注意力模型

本研究提出了一种基于文本引导注意力模型的图像字幕生成方法，其能够通过联合图片及相应说明文本的训练数据来实现视觉关注，有效地区分图像中的细小或混淆对象，进而在 MS-COCO 图像字幕生成基准测试中获得最佳性能。

Dec, 2016

利用偏序关系引导注意力进行图像字幕生成

本文提出了一种引导式的注意力网络机制，将图像的空间特征、主题的高级信息以及生成的字幕的时间上下文嵌入到一个有序的嵌入空间中进行训练，采用成对的排序目标函数，该模型在 MSCOCO 数据集上表现出与众多最先进模型相媲美的竞争力。

Apr, 2022

分布式注意力用于基于图像描述的场景理解

该研究针对弱监督概念下的图片描述问题，提出了一种基于分布式注意力机制和局部连接信息的部分地基准技术，可以帮助生成最佳的图片描述。

Aug, 2021

基于循环发现注意力区域的多标签图像识别

本文提出了一种利用深度学习技术中的循环记忆 - 关注模块来实现图像多标签分类识别的新方法。通过不使用候选区域提取方法，从卷积特征图中定位注意区域，并使用 LSTM 子网络对这些区域进行语义标记和全局依赖性的序列预测。试验表明该方法在识别准确率和效率上均优于现有技术。

Nov, 2017

强化注意力：利用人类的注意力进行图像字幕生成

使用两种类型的注意力机制：从上至下的语言传达信息和自底向上的视觉信号，通过提出 Boosted Attention 模型实现将它们整合在图像字幕生成任务中，从而提高了效果。

Mar, 2019

基于区域注意力和场景分解的图像字幕定位与描述对齐

本文提出了一种使用平行结构、利用图像和句子之间的相似性及上下文信息生成图像描述的方法，将视觉感知与文本描述相结合，使用场景特定的上下文信息对句子中的词语生成进行调整，在多个流行数据集上的实验表明本方法在生成精准、丰富的图像描述方面表现优异。

Jun, 2015

探索和提取跨模态信息以用于图像字幕生成

本研究提出基于 Transformer 的全局与局部信息探索与提炼方法，在跨模态视角下探究图像字幕生成，并在 COCO 测试集上取得了 129.3 的 CIDEr 分数。

Feb, 2020

语义关注下的图像字幕生成

本文提出了一种融合上下文语境的自动图像描述算法，通过自下而上的计算和语义关注的上下文交互作用，成功在 Microsoft COCO 和 Flickr30K 两个公开基准测试中取得了明显的优于现有算法的结果。

Mar, 2016

基于主题引导的图像描述注意力模型

本文提出了一种新的注意力机制，称为主题引导注意力，在图像字幕生成中应用，通过将图像主题整合到注意力模型中作为指导信息，协助选择最重要的图像特征。在微软 COCO 数据集上的实验结果表明，该方法在各种定量指标上具有最先进的性能。

Jul, 2018