解决深度视觉模型中的一个基本限制：缺乏空间注意力

Jul, 2024

解决深度视觉模型中的一个基本限制：缺乏空间注意力

Addressing a fundamental limitation in deep vision models: lack of spatial attention

Ali Borji

TL;DR当前深度学习模型在处理图像时存在的重要局限性是它们无法像人类视觉一样，高效地只选择必要的视觉区域进行处理，导致速度慢且能耗高。本文从广泛的角度考察了这个问题，并提出了解决方案，为下一代更高效的视觉模型铺平了道路。基本上，本文采用了选择性地对变换后的区域进行卷积和池化操作，并将变化图传递给后续层次。这个图指示了哪些计算需要重复执行。源代码可在此 URL 进行查看。

Abstract

The primary aim of this manuscript is to underscore a significant limitation in current deep learning models, particularly vision models.

deep learning models vision models limitation efficiency convolution and pooling operations

发现论文，激发创造

视觉注意力的循环模型

通过引入一种新的循环神经网络模型，允许自适应选择一系列区域或位置并仅处理所选区域。该模型可通过强化学习方法训练，提高图像分类性能，并能够跟踪简单对象。

Jun, 2014

深度视觉注意力预测

通过深度学习网络结构，我们的视觉注意力网络从全局到本地不同范围内的多尺度特征中提取等级显著信息以预测人眼的视觉注视点，并在各种基准数据集上实现了最先进的性能表现。

May, 2017

利用深度学习在中央凹区图像中学习搜索和检测物体

研究了利用仿生学注意机制的物体识别方法，通过采用集成注意力、分类和定位的双重任务模型，利用人类注意力系统分辨图像中的感兴趣区域。

Apr, 2023

当医学影像遇上自注意力机制：一段并未很成功的爱情故事

通过在医学图像上扩展卷积神经网络结构，研究了自注意机制的应用，发现仅仅加入自注意机制并不能提升现有的完全卷积方法的性能。

Apr, 2024

深度学习时代的凝视

本文介绍了一种使用视锥传感器主动关注视觉场景的方法，并提出了一种端到端可区分的视锥主动视觉架构，该架构利用图卷积网络处理视锥图像，并提供一种简单而有效的视锥图像采样形式。我们的模型通过学习迭代地关注与分类相关的图像区域。我们在多个图像数据集上进行了详细实验，比较了我们的方法与先前的视锥视觉方法的性能，同时还测量了不同选择（如视锥程度和网络执行的固定点数）对目标识别性能的影响。我们发现，我们的模型在具有可比参数和给定像素或计算预算的最先进 CNN 和视锥视觉架构上表现更好。

Dec, 2023

DeepFix: 一种用于预测人眼注视的全卷积神经网络

DeepFix 是一种全新的卷积神经网络，可用于准确地预测显著性图，并集成了多尺度语义和全局上下文，并通过引入 Location Biased 卷积层来解决空间不变性问题，其表现优越。

Oct, 2015

计算效率高的计算机视觉深度学习：综述

过去十年来，深度学习模型在各种视觉感知任务中取得了显著进展，但其高计算资源需求限制了其在实际应用中的可行性。本综述通过四个关键领域的研究，即轻量级骨干模型的发展、面向特定计算机视觉任务的专用网络架构或算法、深度学习模型压缩技术以及在硬件平台上部署高效深度网络的策略，对计算效率高的深度学习进行了广泛分析，并讨论了该领域面临的关键挑战和未来研究方向。

Aug, 2023

场景文本识别的视觉注意力模型

本文提出了一种无词典的场景图像文本识别方法，该方法基于一种基于 LSTM 的软视觉注意模型，该模型从卷积特征中学习。通过导出与图像不同区域对应的中间卷积层的一组特征向量，实现了对空间信息的编码，从而使框架能够学习如何选择性地聚焦于图像的不同部分。除此之外，我们还展示了通过将显式语言模型集成到束搜索算法中来修改改良的束搜索算法可以导致更好的识别结果，以标准的 SVT 和 ICDAR'03 场景文本数据集为基础，证明了我们方法在无约束文本识别中的卓越表现。

Jun, 2017

深度架构图像跟踪中的注意力学习

提出了一种基于注意力的模型，利用注视数据进行同时进行目标跟踪和识别。模型有两个相互作用的通路：身份和控制，分别模拟神经元科学模型中的「what 和 where」通路，其中前者使用深度（分解）受限玻尔兹曼机模拟对象外观并执行分类，而后者模拟关注对象的位置、方向、大小和速度，并估计状态的后验分布。

Sep, 2011

人类注意力建模的趋势、应用与挑战

人类注意力建模在近年来已被证明特别有用，不仅用于理解视觉探索的认知过程，还可以为旨在解决各个领域问题的人工智能模型提供支持。本综述对近期将人类注意机制整合到当代深度学习模型中的努力进行了理性概述，并讨论了未来的研究方向和挑战。

Feb, 2024