切片递归变压器
本文发现 Vision transformers 模型存在 attention collapse issue 现象,即 transformer 模型越深层次的注意力权重变得越相似,严重影响模型性能,提出了一种名为 Re-attention 的有效方法来解决该问题,使得 32 层的 Vision transformers 模型在 ImageNet 数据集的 Top-1 分类准确率上提高了 1.6%。
Mar, 2021
本文提出使用深度学习的自校准高效变换器 (SCET) 网络,通过采用像素关注机制来提取图像特征,并使用高效变换器来获取相似的长距离特征,以恢复足够的纹理细节,该方法在不同环境下获得更为出色的性能。
Apr, 2022
该研究介绍了基于递归本地窗口自注意力结构的残差连接的递归变压器 (DRT) 的使用,该模型在低级计算机视觉任务的执行过程中需要少量的计算资源,而不需要有意地针对降雨设计;实验证明,它也可用于其他图像恢复任务,且可以达到有竞争力的结果。
Apr, 2022
该研究提出了一种基于 Token Slimming Module 和 Feature Recalibration Distillation 的自我瘦身学习方法(SiT),能够大幅减少 Vision Transformers 的计算负担,同时不会对其分类性能产生太大影响,并在 ImageNet 数据集上实现了新的最佳性能。
Nov, 2021
本文主要从实际应用的角度重新审视 Transformer,并将硬件延迟作为衡量计算效率的指标,提出一系列针对 TensorRT 的网络设计实践指南,并给出了一家 TRT-ViT 的网络模型,实验表明在不同的视觉任务中,TRT-ViT 在延迟 / 准确性的权衡方面显著优于现有的 ConvNets 和 Vision Transformers。
May, 2022
本研究提出了一种称为 NViT 的基于 Hessian 的全局结构裁剪方法,能够比以往更高效地利用 ViT 模型的参数,使得 NViT-Base 在 ImageNet-1K 数据集上具备了比 DeiT-Base 更高的准确率、更低的 FLOPs 和参数数量以及更快的运行速度。
Oct, 2021
本文提出了一种高效的多尺度视觉 Transformer 模型,名为 ResT,可作为图像识别的通用骨干。它通过一些优势来应对传统 Transformer 模型在应对分辨率固定的原始图像中存在的缺陷, 特别是建立了一种内存高效的多头自注意力机制、一种空间关注的位置编码方法,并将贴片嵌入设计为一系列重叠卷积运算,最终提高了大量原始图像识别和下游任务的性能。
May, 2021
本研究提出了 Lite Vision Transformer(LVT),一种新型的轻量级 transformer 网络,其中包含两种增强自注意力机制,以提高模型在移动部署中的性能表现,并在 ImageNet 识别、ADE20K 语义分割和 COCO 全景分割中具有优越性能。
Dec, 2021
本文介绍了使用阶梯自注意力块和渐进式移位机制开发轻量级转换器骨干 (PSTL),具有较少的计算资源需求,用于各种视觉任务包括图像分类等,相对于现有的模型,PSTL 具有更少的参数和 FLOPs,但在 ImageNet-1k 数据集上却达到了 79.9%的准确率
Apr, 2023
本研究通过构建 Wavelet Vision Transformer 来处理多尺度视觉问题,使用小波变换实现可逆下采样,同时结合局部上下文信息提高自注意力计算结果,结果表明其在图像识别等多种任务上表现优异。
Jul, 2022