视觉大鸟:全注意力的随机稀疏化
本文介绍了基于 Transformers 模型 (BERT) 的缺点,提出了一种新模型 BigBird,该模型采用稀疏注意机制以线性方式减少了模型中由全面关注机制导致的二次依赖性 (主要是内存),能够处理比以前长 8 倍长度的序列。因其能够处理更长的上下文,BigBird 在各种 NLP 任务上都实现了大幅度的性能提升。
Jul, 2020
本文提出了一种采用金字塔结构和新的区域到局部注意力的视觉 transformer(ViT)架构,可以在图像分类和目标检测等四个任务上优于目前最先进的视觉 transformer(ViT)变体。
Jun, 2021
本研究提出了一种新的混合视觉 transformer 模型 (ACC-ViT),运用区域关注和稀疏关注相结合的方式,动态地集成了局部和全局信息,同时保留了分层结构,并在常见的视觉任务中表现出色。
Jun, 2024
本研究提出了一种新颖的高斯混合蒙版(GMM)方法,在没有预训练的情况下通过改进局部建模的方式来提升 Vision Transformer(ViT)在小数据集上的性能,实验证明该方法对于提升 ViT 的效果显著,几乎不增加额外参数或计算成本。
Sep, 2023
通过研究 Vision Transformers 中的 self-attention 机制密度,得出了密集交互对模型的重要性,并提出了一种新的方法 ——Context Broadcasting (CB),有效地提高了模型的容量和泛化能力。
Oct, 2022
本文介绍了一种新的卷积神经网络和可见 - 感知变换神经网络的混合模型 ——FasterViT,利用 HAT 方法分层降低全局自注意力的计算复杂度,提高图像处理的吞吐量和效率。FasterViT 在各种计算机视觉任务中得到了广泛的验证,并表现出比竞争对手更快,更准确的性能。
Jun, 2023
本文提出了一种名为 Bird-Eye Transformer(BET)的新架构,通过重新加权自我注意力以鼓励其更多关注重要的历史信息,进一步提高了变压器的性能,并在多个文本生成任务中进行了实验,包括机器翻译和语言模型,在所有数据集上都比基线变压器结构表现更好。
Oct, 2022
本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度,并探讨基于形状编码的图像编码方法,以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。
May, 2021
利用人眼的稀疏扫描机制,通过引入稀疏扫描自注意机制(S^3A)和稀疏扫描视觉 Transformer(SSViT),有效降低计算负荷,达到在计算机视觉任务中出色的性能表现。
May, 2024
本文介绍视觉 Transformer (ViT) 在使用自注意力机制的基础上,探究其能否表达卷积操作,并证明使用输入图像块的单个 ViT 层可以构建任何卷积操作,其中多头注意机制和相对位置编码起着关键作用。作者还提供了 Vision Transformer 表达 CNN 所需头数的下限,该证明的构建可以帮助将卷积偏差注入 Transformer,并在低数据环境下显著提高 ViT 的性能。
Nov, 2021