使用去焦注意力网络学习一维因果视觉表示

Jun, 2024

使用去焦注意力网络学习一维因果视觉表示

Learning 1D Causal Visual Representation with De-focus Attention Networks

Chenxin Tao, Xizhou Zhu, Shiqian Su, Lewei Lu, Changyao Tian...

TL;DR通过使用可学习的带通滤波器创建多样化的注意模式以及引入大规模且有计划的 drop path 率和全局池化特征的辅助损失来解决现有 1D 因果视觉模型中的“过度聚焦”问题，从而提高模型对多模态任务的性能。

Abstract

modality differences have led to the development of heterogeneous architectures for vision and language models. While images typically require 2D non-causal modeling, texts utilize →

发现论文，激发创造

学习何时何地参加

使用人类注意力地图强化深度卷积神经网络的监控信号，并将其应用于目标识别，大幅提高了准确性并生成更接近人类观察者的可解释性更强的视觉特征。

May, 2018

深度视觉显著性模型的理解与可视化

通过分析深度显著性模型中间层个体神经元学习的特征表示，研究表明：一些视觉区域已经预先编码在对象识别的网络的各个层中，预先训练模型fine-tuning以进行显著性预测会使它们偏爱某些类别，在自然图像上，深层显著性模型胜于传统模型，但在人造刺激上表现反其道而行之。

Mar, 2019

幕后揭秘：揭示预训练视觉语言模型的秘密

该论文研究了使用Transformer模型的大规模预训练模型在图像与语言（V+L）方面的应用，通过评估和探索内部机制，提供了关于多模式预训练及其注意力头的启示和指导。

May, 2020

视觉语言任务的因果关注

本文提出了一种新颖的注意力机制Causal Attention (CATT)，用于消除现有基于注意力的视觉语言模型中一直存在的混淆效应，CATT可替换任何注意力模块，可大幅提高各种流行的注意力模型的性能，尤其在大规模预训练中具有潜力。

Mar, 2021

因果关注用于无偏视觉识别

本文提出了一种因果关系注意力模块，通过自我注释来识别难以预测的混淆变量，从而使深度学习模型更好地处理在分布不同的情况下仍具备鲁棒性的因果特征，不仅解决了监督注释需要高昂成本、混淆变量难以抽象提取等问题，并在相应实验中得到了卓越的结果。

Aug, 2021

多模学习脑视语特征解码视觉神经表示

本文提出了一种名为BraVL的神经解码通用方法，采用三模态深度生成模型对脑部、视觉和语义特征之间的关系进行建模，以提高对新颖视觉类别的准确性，进而发现通过视觉和语义特征的组合进行解码比单独使用这两者更卓越，进而表明视觉感知可能伴随语言影响以表示视觉刺激的语义。

Oct, 2022

动力学视角下的分层共享注意力网络

提出一种名为DIA 的注意力网络单元，该单元在不同的神经网络层之间共享单个注意力模块，从而在各种视觉任务中提高了现有自我注意力模块的准确性，并且具有强大的正则化能力，能够通过增强层间信息交流和梯度值有效地恢复和提高其训练不稳定性。

Oct, 2022

少即是多：聚焦注意力的高效DETR

DETR-like模型相比传统卷积模型有很大的提升效果，然而现有的编码器结构中所有的令牌都被平等对待，不加区分地处理给传统的编码器结构带来了冗余计算负担，因此提出了Focus-DETR来得到更好的计算效率和模型准确性的权衡，通过使用双重注意力的编码器对更具信息量的令牌进行关注，并通过得分来增强细粒度对象查询的语义交互。

Jul, 2023

面向时空视觉注意建模与理解的分层表示

该篇博士论文研究和开发了用于视频序列中的时空视觉注意建模和理解的分层表示。具体而言，我们提出了两个用于视觉注意的计算模型。首先，我们提出了一个上下文感知的生成概率模型，用于视觉注意建模和理解。其次，我们开发了一个深度网络架构，用于视觉注意建模，首先估计自上而下的时空视觉注意，最终用于建模时间域中的注意。

Aug, 2023

利用扩散模型和元提示进行视觉感知

通过引入可学习的嵌入（元提示）来利用扩散模型解决视觉感知任务，我们的方法在深度估计和语义分割任务上取得了新的性能记录，并在ADE20K的语义分割和COCO数据集的姿态估计等方面达到了与最先进方法相媲美的结果，展示了其稳健性和多功能性。

Dec, 2023