高效视觉 Transformer 的 Patch Slimming
提出了一种用于减少 Vision Transformers 计算复杂度的简单方法,通过选择和处理最有信息的小片段,我们将二维人体姿态估计网络的结果作为指导进行小片段的选择,实验结果表明这种方法在显著提高速度和减少计算复杂度方面非常有效,而且性能略微下降。
Jun, 2023
本文提出一种新的损失函数来促进视觉转换器中提取的补丁表示的差异性,以稳定训练并改善下游的语义分割任务的结果。实验证明,这种方法可以训练更广泛和更深的视觉转换器,并在 Cityscapes 和 ADE20k 上增强了最新的结果。
Apr, 2021
本文介绍 ConvMixer 模型,它使用标准卷积来混合图像块,并在类似参数计数和数据集大小的情况下胜过 ViT、MLP-Mixer 和一些变种,同时也优于经典的 ResNet 等视觉模型。
Jan, 2022
本文提出了三种易于实现的视觉 Transformer 变体。第一,可以在不降低精度的情况下并行处理视觉 Transformer 的残差层。第二,对注意力层的权重进行微调就足以适应更高分辨率和其他分类任务,这节省了计算量,减少了微调时的峰值内存消耗,并允许跨任务共享大部分权重。第三,添加基于 MLP 的补丁预处理层,可提高基于补丁掩模的 Bert 式自监督训练效果。作者使用 ImageNet-1k 数据集评估了这些设计选择的影响,并在 ImageNet-v2 测试集上确认了研究发现。文章在六个较小的数据集上评估了转移性能。
Mar, 2022
这篇文章首先数学上定义了使 Vision Transformer 高效的策略,描述并讨论了最先进的方法学,并分析了它们在不同应用场景下的性能。
Sep, 2023
利用 Vision Transformer 结合 Derandomized Smoothing 进行逐步平滑的图像建模任务来训练并提高证明补丁防御机制的可证准确性,同时重构了原始的 ViT 的全局自注意结构以适用于在实际世界中的高效推理和部署。在 ImageNet 数据集上,在 2% 区域补丁攻击下,本文方法达到 41.70% 的证明准确度,比之前最佳方法高出近 1 倍(26.00%)。同时,本方法达到了 78.58% 的干净准确度,接近正常 ResNet-101 的准确度,并在 CIFAR-10 和 ImageNet 上实现最先进的干净和证明准确度。
Mar, 2022
近期,在深度模型的推断计算方面取得了很多进展,这些方法可以减少深度模型的计算需求和功耗。我们展示了这些模型容易受到普适性对抗贴片攻击的影响,攻击者通过优化一个贴片,将其粘贴到任意图像上可以增加模型的计算量和功耗。我们运行实验使用了三种不同的高效视觉转换器方法,显示在某些情况下,攻击者只需将一个只占图像面积的 8% 的贴片粘贴上即可将计算量增加到最大限度。同时我们还展示了标准对抗性训练防御方法可以减少攻击的成功率。我们相信为降低深度模型的功耗,未来需要采用自适应高效的方法,希望我们的论文可以鼓励研究人员研究这些方法的强韧性,并开发更好的防御方法来对抗这种攻击。
Oct, 2023
我们提出了一种新的模式转换器 (Pattern Transformer),通过卷积神经网络从输入图像中提取各种模式,将每个通道表示为一个独特的模式,并将其作为视觉令牌输入到后续的 Transformer 模型中,从而实现对图像的自适应转换。在 CIFAR-10 数据集和 CIFAR-100 数据集上,我们通过仅使用通用 ResNet 和 Transformer 模型,取得了最新的性能,并在 ImageNet 上取得了优异的结果。
Aug, 2023