探索内在归纳偏差的视觉变换器高级版
本文提出了一种利用先验卷积 IB(intrinsic bias)的 Vision transformer 架构(ViTAE)来解决长程依赖建模中存在的局限性,并在 ImageNet 及其他数据集上进行了实验证明其在图像分类任务上的优越性。
Feb, 2022
本文提出基于自注意力块的局部信息增强模块 LIFE,通过提取补丁级别的局部信息并将其合并到 ViTs 的嵌入中,在小尺寸图像分类数据集上改进了 ViTs 的性能,并将其推广到目标检测和语义分割等下游任务,在此基础上,引入了一种新的可视化方法 —— 密集注意力 Roll-Out,特别适用于密集预测任务。
May, 2023
本文发现 Vision transformers 模型存在 attention collapse issue 现象,即 transformer 模型越深层次的注意力权重变得越相似,严重影响模型性能,提出了一种名为 Re-attention 的有效方法来解决该问题,使得 32 层的 Vision transformers 模型在 ImageNet 数据集的 Top-1 分类准确率上提高了 1.6%。
Mar, 2021
本文提出了一种形式的位置自注意力机制:门控位置自注意力,该机制能够同时具备卷积神经网络的空域学习和自注意力层的位置不变性。作者使用这种机制构建了名为 ConViT 的混合卷积 - 自注意力神经网络,通过在 ImageNet 数据集上的实验表明,该网络在图像分类任务上拥有优异的性能和更高的样本效率,并提高了对定位特征的注意力。
Mar, 2021
本文研究了如何使用混合 CNN / ViTs 的宏观架构来增强分层 ViTs 的性能,特别地,我们研究了令牌嵌入层的作用,引入了卷积嵌入(CE),并系统地揭示了 CE 如何在 ViTs 中注入理想的归纳偏差。 我们将最佳 CE 配置应用于 4 个最近发布的最先进的 ViT 中,有效地提高了相应的性能,并释放了一组高效的混合 CNN / ViT,名为 CETNets,可作为通用视觉骨干。
Jul, 2022
本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度,并探讨基于形状编码的图像编码方法,以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。
May, 2021
本文旨在研究 Vision Transformer 对常见的图像扰动、分布偏移和自然对抗样本的稳健性,并在六个不同的 ImageNet 数据集上与 SOTA 卷积神经网络进行性能比较,通过一系列六个系统设计的实验,提供了定量和定性的分析来解释 ViT 为什么是更加稳健的学习器。
May, 2021
本文提出了一种采用金字塔结构和新的区域到局部注意力的视觉 transformer(ViT)架构,可以在图像分类和目标检测等四个任务上优于目前最先进的视觉 transformer(ViT)变体。
Jun, 2021
通过使用基于多个轴的新型 Hyena 层,我们提出了一种不依赖于自注意力机制的高效视觉 Transformer,并且实验证明该方法在多个数据集上提升了各种 Vision Transformer 架构的性能。
Sep, 2023
本研究提出了一种名为 LightViT 的轻量化 transformer 网络,通过全局有效聚合策略结合注意力机制和多维度的通道 / 空间注意力机制来捕捉全局依赖信息,从而实现更好的准确性和效率平衡。实验证明,该模型在图像分类、目标检测和语义分割任务中均取得了显著的提升。
Jul, 2022