自上而下的分析合成视觉注意力
本篇研究提出一种混合自下而上和自上而下视觉关注机制,能在对象和其他显著图像区域的水平上计算注意力权重,实现更深入图像理解,将其应用于图像字幕生成和视觉问答任务中,取得了优于现有技术的成绩。
Jul, 2017
本文提出了神经视觉注意力算法(NeVA),并利用仿生视觉约束在神经网络上实现了类人的扫描路径生成。实验结果表明,该方法在类人扫描路径相似性方面优于现有无监督的人类注意力模型,同时可灵活地研究不同任务对视觉行为的影响,并在考虑不完美的视觉条件下的实际应用中表现出明显的优势。
Apr, 2022
利用人眼的稀疏扫描机制,通过引入稀疏扫描自注意机制(S^3A)和稀疏扫描视觉 Transformer(SSViT),有效降低计算负荷,达到在计算机视觉任务中出色的性能表现。
May, 2024
基于观察到的异构注意力模式,在 Vision Transformers 中提出了一种综合压缩方法,通过动态引导的静态自注意力和全局聚合金字塔,加速了运行时间吞吐量,超过了所有 SOTA 方法。
Oct, 2023
本研究介绍了一个基于尺度不变特征转换的加权块间关系分析方法,并发现该定量分析不仅是 ViT 中 MSA 机制解释的有效补充,还可以应用于模型推断中的假相关性发现和提示,以及引导模型预训练加速。
Nov, 2022
本研究提出了人类注意力变压器(HAT),它是一种单一模型,预测两种形式的注意力控制,并通过使用一种新颖的基于转换器的架构和一种简化的凹面视网膜,实现了类似于人类动态视觉工作记忆的时空意识,同时避免了离散化固定目光。HAT 在计算注意力方面设定了新方向,并在各种注意力需求场景中更好地预测人类行为,具有广泛的适用性。
Mar, 2023
该研究建立了一种迭代编码器 - 解码器网络模型,利用重构上的反馈机制来加强前馈目标识别过程的重要信息,有效应对常见的图像扰动;研究还发现,该网络模型在对象识别方面,空间与特征化的注意力是相辅相成的,并可以解释人类的知觉误差。
Sep, 2022
我们提出了一种应用于 Vision Transformer 的注意力引导可视化方法,该方法能够为其决策提供高级语义解释,并以类标签为唯一的输入,具备出色的定位性能,在弱监督定位任务中胜过了之前领先的解释方法,并具备捕获目标类对象的完整实例的能力
Feb, 2024
本研究提出了一种新的混合视觉 transformer 模型 (ACC-ViT),运用区域关注和稀疏关注相结合的方式,动态地集成了局部和全局信息,同时保留了分层结构,并在常见的视觉任务中表现出色。
Jun, 2024
Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.
Jun, 2024