自上而下的分析合成视觉注意力

CVPRMar, 2023

Top-Down Visual Attention from Analysis by Synthesis

Baifeng Shi, Trevor Darrell, Xin Wang

TL;DR本文提出了一种从经典分析合成视觉的角度来考虑自下而上的视觉任务导向注意的方法，并构建了一种名为 AbSViT 的基于 Vision Transformer 的模型，该模型在视觉语言任务中有较好的表现，并可用作分类、语义分割和模型稳健性等各种应用的通用骨干网络。

Abstract

Current attention algorithms (e.g., self-attention) are stimulus-driven and highlight all the salient objects in an image. However, intelligent agents like humans often guide their attention based on the high-level task at hand, focusing only on task-related objects. This ability of task-guided top-down attention provides task-adaptive representation and hel

task-guided attention analysis-by-synthesis vision transformer vision-language tasks model robustness

发现论文，激发创造

基于自下而上和自上而下的注意力机制用于图像字幕生成与视觉问答

本篇研究提出一种混合自下而上和自上而下视觉关注机制，能在对象和其他显著图像区域的水平上计算注意力权重，实现更深入图像理解，将其应用于图像字幕生成和视觉问答任务中，取得了优于现有技术的成绩。

Jul, 2017

机器凝视背后：带有生物启示约束的神经网络表现出类似于人类的视觉关注

本文提出了神经视觉注意力算法（NeVA），并利用仿生视觉约束在神经网络上实现了类人的扫描路径生成。实验结果表明，该方法在类人扫描路径相似性方面优于现有无监督的人类注意力模型，同时可灵活地研究不同任务对视觉行为的影响，并在考虑不完美的视觉条件下的实际应用中表现出明显的优势。

Apr, 2022

稀疏扫描先验的视觉转换器

利用人眼的稀疏扫描机制，通过引入稀疏扫描自注意机制（S^3A）和稀疏扫描视觉 Transformer（SSViT），有效降低计算负荷，达到在计算机视觉任务中出色的性能表现。

May, 2024

基于异质注意力模式的视觉 Transformer 加速

基于观察到的异构注意力模式，在 Vision Transformers 中提出了一种综合压缩方法，通过动态引导的静态自注意力和全局聚合金字塔，加速了运行时间吞吐量，超过了所有 SOTA 方法。

Oct, 2023

从语义角度揭示视觉 Transformer 中的自注意力机制：分析与应用

本研究介绍了一个基于尺度不变特征转换的加权块间关系分析方法，并发现该定量分析不仅是 ViT 中 MSA 机制解释的有效补充，还可以应用于模型推断中的假相关性发现和提示，以及引导模型预训练加速。

Nov, 2022

利用计算注意力预测人类注意力

本研究提出了人类注意力变压器（HAT），它是一种单一模型，预测两种形式的注意力控制，并通过使用一种新颖的基于转换器的架构和一种简化的凹面视网膜，实现了类似于人类动态视觉工作记忆的时空意识，同时避免了离散化固定目光。HAT 在计算注意力方面设定了新方向，并在各种注意力需求场景中更好地预测人类行为，具有广泛的适用性。

Mar, 2023

重建引导的注意力提高神经网络的鲁棒性和形状处理能力

该研究建立了一种迭代编码器 - 解码器网络模型，利用重构上的反馈机制来加强前馈目标识别过程的重要信息，有效应对常见的图像扰动；研究还发现，该网络模型在对象识别方面，空间与特征化的注意力是相辅相成的，并可以解释人类的知觉误差。

Sep, 2022

注意力导向 CAM：自注意力引导视觉变换器的视觉解释

我们提出了一种应用于 Vision Transformer 的注意力引导可视化方法，该方法能够为其决策提供高级语义解释，并以类标签为唯一的输入，具备出色的定位性能，在弱监督定位任务中胜过了之前领先的解释方法，并具备捕获目标类对象的完整实例的能力

Feb, 2024

视觉 Transformer 中的区域与稀疏注意力融合

本研究提出了一种新的混合视觉 transformer 模型 (ACC-ViT)，运用区域关注和稀疏关注相结合的方式，动态地集成了局部和全局信息，同时保留了分层结构，并在常见的视觉任务中表现出色。

Jun, 2024

视觉 Transformer 的每个阶段只需要更少的注意力

Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.

Jun, 2024