基于标题引导的自上而下视觉显著性

CVPRDec, 2016

基于标题引导的自上而下视觉显著性

Top-down Visual Saliency Guided by Captions

Vasili Ramanishka, Abir Das, Jianming Zhang, Kate Saenko

TL;DR本文提出了基于标题引导的视觉显著性方法，通过训练数据隐式的学习到现代编码器解码器网络中的区域到单词的映射，而不引入显式的注意力层，从而分析各种现有模型结构，并提供更准确的显著性热图。

Abstract

Neural image/video captioning models can generate accurate descriptions, but their internal process of mapping regions to words is a black box and therefore difficult to explain. Top-down neural saliency methods can find important regions given a high-level semantic task such as object classification, but cannot use a natural language sentence as the top-dow

neural image captioning visual saliency encoder-decoder networks attention layers caption training data

发现论文，激发创造

关注图像字幕模型生成的描述

研究了人类描述场景时自底向上显著性视觉关注和物体引用之间的一致性；提出了一种以显著性为增强因素的图像标题生成模型，结果发现该模型并不明显优于传统方法，但能更好地适用于未知数据。

Apr, 2017

注重显著性：使用显著性和上下文注意力进行图像字幕生成

本文提出了一种基于生成循环神经网络的图像字幕方法，它可以利用一个显著性预测模型在生成字幕时集中于图像不同的部分，并通过大规模数据集上的广泛定量和定性实验证明该模型相比不带显著性和不同的最先进的显著性与字幕结合方法具有卓越的性能。

Jun, 2017

无需定位监督学习生成有依据的视觉描述

通过使用循环训练程序来帮助模型在生成句子描述并从本地化的图像 / 视频区域中重建句子以匹配基本事实的过程中，提高了图像标题生成模型的文本本地化能力，而不需要使用本地化监督或在推理过程中引入额外的计算。

Jun, 2019

基于上下文编码器 - 解码器网络的视觉显著性预测

该论文提出了一种基于卷积神经网络的方法，通过提取多尺度的高级视觉特征和上下文信息，结合全局场景信息，用于准确预测视觉显著性，可以适用于资源受限的应用，如（虚拟）机器人系统，从而在多个基准测试数据集上取得了有竞争力和一致的结果。

Feb, 2019

语义关注下的图像字幕生成

本文提出了一种融合上下文语境的自动图像描述算法，通过自下而上的计算和语义关注的上下文交互作用，成功在 Microsoft COCO 和 Flickr30K 两个公开基准测试中取得了明显的优于现有算法的结果。

Mar, 2016

强化注意力：利用人类的注意力进行图像字幕生成

使用两种类型的注意力机制：从上至下的语言传达信息和自底向上的视觉信号，通过提出 Boosted Attention 模型实现将它们整合在图像字幕生成任务中，从而提高了效果。

Mar, 2019

基于自下而上和自上而下的注意力机制用于图像字幕生成与视觉问答

本篇研究提出一种混合自下而上和自上而下视觉关注机制，能在对象和其他显著图像区域的水平上计算注意力权重，实现更深入图像理解，将其应用于图像字幕生成和视觉问答任务中，取得了优于现有技术的成绩。

Jul, 2017

基于文本引导的图像字幕注意力模型

本研究提出了一种基于文本引导注意力模型的图像字幕生成方法，其能够通过联合图片及相应说明文本的训练数据来实现视觉关注，有效地区分图像中的细小或混淆对象，进而在 MS-COCO 图像字幕生成基准测试中获得最佳性能。

Dec, 2016

基于显著性引导的弱监督图像分割深度网络

该研究提出了一种基于显著性引导的图像分割网络，利用自我注意力显著性方法生成微妙的显著性地图，并通过点种植区域生长方法将地点线索扩展为像素级标签，从而生成具有区分性的对象区域。实验结果表明，该方法有效降低了显著性噪声的影响，提高了弱监督图像分割的准确性。

Oct, 2018

RNN 的激活反向传播

本研究提出了一种基于深度模型的视频内容分析方法，同时利用自顶向下的显著地图来将证据同时固定在空间和时间上，并通过模型内部表示可视化出影响深度模型输出的时空线索，进而能够在视频段中定位特定动作或字幕短语所对应的特征。

Nov, 2017