一种概率硬注意模型，用于顺序观察场景

Nov, 2021

一种概率硬注意模型，用于顺序观察场景

A Probabilistic Hard Attention Model For Sequentially Observed Scenes

Samrudhdhi B. Rangrej, James J. Clark

TL;DR本文阐述了一种利用 Bayesian Optimal Experiment Design 来选择信息区域的视觉 Hard Attention Model。通过合成未观察到的区域的特征来预测信息增益（EIG），并在 EIG 最大的位置上实际观察内容。这种模型使用递归特征聚合器维护递归状态，使用线性分类器来预测类别标签，并使用部分变分自编码器来预测未观察到区域的特征。我们使用可微分的目标函数对模型进行训练，并在五个数据集上进行测试。与基线模型相比，当两者只看到几个方向时，我们的模型获得了 2-10％更高的准确度。

Abstract

A visual hard attention model actively selects and observes a sequence of subregions in an image to make a prediction. The majority of hard attention models determine the attention-worthy regions by first analyzing a complete image. However, it may be the case that the entire image is

hard attention model bayesian optimal experiment design recurrent feature aggregator linear classifier partial variational autoencoder

发现论文，激发创造

基于一致性约束的序列 Transformer 关注模型在部分可观测场景中的应用

本文提出序列转换器关注模型（STAM），以在资源有限的情况下，部分观察完整图像并仅基于过去的瞥见预测信息突出位置。使用 DeiT-distilled 设计代理并使用一步演员 - 评论家算法进行培训。此外，为了提高分类性能，还介绍了一种新的培训目标，该目标强制要求完整图像中由教师模型预测的类分布与使用瞥见预测的类分布之间的一致性。在观测图像总面积仅为 4％的情况下，引入一致性损失的训练目标在 ImageNet 和 fMoW 数据集上分别提高了 3％和 8％的准确性。此外，在 ImageNet 和 fMoW 上观察到的像素数量减少了近 27％和 42％。

Apr, 2022

利用连续注意力模型实现鲁棒性图像分类

本文提出了一种受人类感知启发的注意力模型，并将其融合到现代神经网络架构中。实验结果表明，引入注意力机制可以显著提高模型的对抗鲁棒性，在各种随机攻击强度下可以达到最先进的 ImageNet 准确度；通过控制注意力步骤的数量可以使模型的防御能力更强，并且可以对抗更强的攻击；攻击模型生成的对抗样本有着与传统对抗样本不同的全局、显著和空间一致的结构，这些结构来自目标类别并且甚至可以被人类识别，会使模型注意力从原始图像中的主要物体分散开来。

Dec, 2019

视觉属性预测的渐进式注意力网络

该研究提出了一种新的注意力模型，可以通过多层卷积神经网络的渐进式注意力过程精确地关注各种规模和形状的图像目标。实验证明，与传统的注意力方法相比，在视觉属性预测任务中，所提出的注意力网络效果更好。

Jun, 2016

视觉问答的结构型注意力

本文提出通过构建基于网格结构条件随机场上的多变量分布的视觉注意力模型来有效地编码复杂的跨区域关系，并将迭代推理算法转换成端到端的神经网络层，该模型在 3 个数据集上的实验评估结果表明，它超过了新发布的 CLEVR 数据集的最佳基线模型 9.5％，并超过了 VQA 数据集上最佳发布模型 1.25％。

Aug, 2017

多模态连续视觉注意机制

本文介绍一种新的连续注意力机制，它生成具有高斯混合形式的多模态密度，用于图像区域的聚合。该方法在视觉问题回答中表现出有竞争力的准确性和自动分离复杂场景中物体和地面的能力，并提供比其他方法更可解释的注意力地图。

Apr, 2021

快速场景理解：生成模型的参考、推理与重复

提出了一种针对结构化图像模型进行高效推断的框架，可以通过使用循环神经网络执行概率推断实现对场景元素进行有意识的处理，从而在部分特定的 2D 模型（大小可变的变分自动编码器）和完全指定的 3D 模型（概率渲染器）上进行推断而不需要监督学习，从而实现在单次正向神经网络传递中对包括多个对象的 3D 图像进行分解、计数、定位和分类等功能。同时，该文研究还表明，相比较于监督学习，采用该网络结构可以产生更加准确的推断，并且具有良好的泛化能力。

Mar, 2016

深度架构图像跟踪中的注意力学习

提出了一种基于注意力的模型，利用注视数据进行同时进行目标跟踪和识别。模型有两个相互作用的通路：身份和控制，分别模拟神经元科学模型中的「what 和 where」通路，其中前者使用深度（分解）受限玻尔兹曼机模拟对象外观并执行分类，而后者模拟关注对象的位置、方向、大小和速度，并估计状态的后验分布。

Sep, 2011

场景文本识别的视觉注意力模型

本文提出了一种无词典的场景图像文本识别方法，该方法基于一种基于 LSTM 的软视觉注意模型，该模型从卷积特征中学习。通过导出与图像不同区域对应的中间卷积层的一组特征向量，实现了对空间信息的编码，从而使框架能够学习如何选择性地聚焦于图像的不同部分。除此之外，我们还展示了通过将显式语言模型集成到束搜索算法中来修改改良的束搜索算法可以导致更好的识别结果，以标准的 SVT 和 ICDAR'03 场景文本数据集为基础，证明了我们方法在无约束文本识别中的卓越表现。

Jun, 2017

通过引导式硬关注训练视觉问答模型

本文介绍了一种新型的硬注意力机制，该机制忽略了某些特征但仍能达到与软注意力相同或更好的性能，而且因为其选择了输入信息的重要特征，因此比类似的软注意力机制更加高效。

Aug, 2018

信息瓶颈方法用于显著区域发现

本文提出了一种基于信息瓶颈原理的半监督学习方法，用于学习图像注意力掩模。该方法使用标记的图像生成掩模，并最大化被掩蔽图像与图像标签之间的互信息，同时最小化输入和被掩蔽图像之间的互信息，所得到的注意力蒙版为布尔值类型。在 MNIST，CIFAR10 和 SVHN 等数据集上的实验结果表明，我们的方法可以成功地将注意力集中在定义图像类别的特征上。

Jul, 2019