使用有效接受字段理解视觉变换器的高斯注意偏差
本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度,并探讨基于形状编码的图像编码方法,以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。
May, 2021
本研究首次探索视觉变换器(ViT)的全局上下文学习潜力以实现密集视觉预测,编码图像作为一系列补丁并学习全局上下文,使 ViT 可以捕获更强的长距离依赖信息,提出的分割转换器(SETR)在 ADE20K 和 Pascal Context 数据集上取得了出色表现,同时提出了一系列分层本地 - 全局转换器,架构由局部关注(在窗口内)和全局关注(跨窗口)构成,对于各种密集预测任务具有吸引人的性能
Jul, 2022
本文提出基于自注意力块的局部信息增强模块 LIFE,通过提取补丁级别的局部信息并将其合并到 ViTs 的嵌入中,在小尺寸图像分类数据集上改进了 ViTs 的性能,并将其推广到目标检测和语义分割等下游任务,在此基础上,引入了一种新的可视化方法 —— 密集注意力 Roll-Out,特别适用于密集预测任务。
May, 2023
本文提出了一种形式的位置自注意力机制:门控位置自注意力,该机制能够同时具备卷积神经网络的空域学习和自注意力层的位置不变性。作者使用这种机制构建了名为 ConViT 的混合卷积 - 自注意力神经网络,通过在 ImageNet 数据集上的实验表明,该网络在图像分类任务上拥有优异的性能和更高的样本效率,并提高了对定位特征的注意力。
Mar, 2021
该论文基于自然污染和对抗攻击的影响,研究了视觉变压器(ViT)和卷积神经网络(CNN)在图像分类中的表现,发现 ViTs 对自然污染更具鲁棒性,但易受对抗性攻击,然后提出了一种简单的基于温度缩放的方法来提高 ViT 对对抗性攻击的鲁棒性。
Nov, 2021
本研究通过提出两种攻击策略,Self-Ensemble 和 Token Refinement,充分利用了 Vision Transformers 的自注意力和组合性质来增强对抗攻击的传递性能。
Jun, 2021
本文介绍视觉 Transformer (ViT) 在使用自注意力机制的基础上,探究其能否表达卷积操作,并证明使用输入图像块的单个 ViT 层可以构建任何卷积操作,其中多头注意机制和相对位置编码起着关键作用。作者还提供了 Vision Transformer 表达 CNN 所需头数的下限,该证明的构建可以帮助将卷积偏差注入 Transformer,并在低数据环境下显著提高 ViT 的性能。
Nov, 2021
本文探讨了视觉 transformer(ViT)网络在小规模数据集上的训练问题,提出了通过重新解释卷积神经网络(CNN)的架构偏差作为 ViT 的初始化偏差,使其在小规模问题上表现出色,并保持其在大规模应用中的灵活性,该方法在诸多基准数据集(包括 CIFAR-10、CIFAR-100 和 SVHN)上实现了最先进的数据高效 ViT 学习性能。
Apr, 2024
基于观察到的异构注意力模式,在 Vision Transformers 中提出了一种综合压缩方法,通过动态引导的静态自注意力和全局聚合金字塔,加速了运行时间吞吐量,超过了所有 SOTA 方法。
Oct, 2023
本研究提出了一种新颖的高斯混合蒙版(GMM)方法,在没有预训练的情况下通过改进局部建模的方式来提升 Vision Transformer(ViT)在小数据集上的性能,实验证明该方法对于提升 ViT 的效果显著,几乎不增加额外参数或计算成本。
Sep, 2023