超越网格:探索视觉 Transformer 的弹性输入采样
本研究提出一种迭代和渐进式采样策略,以定位具有区分性的区域,并与 Vision Transformer 结合起来,形成 PS-ViT 网络。该网络可自适应地学习何时观察图像的哪些区域,从而在 ImageNet 数据集上表现出比原始 ViT 网络高 3.8%的 top-1 准确性(使用约 4 倍的参数和 10 倍的运算次数)。
Aug, 2021
本文介绍了一种新的图像标记方案 —— 混合分辨率标记 —— 以及如何使用 Quadtree 算法和新的显著性评分器构建图像的代表通量,进而实现更好的图像分类。
Apr, 2023
该论文通过挖掘网络中的冗余计算研究视觉变换器的效率问题,并提出了一种新颖的修剪方法来减少计算成本,该方法称为修剪补丁法,可以移除无用的补丁,从而显著降低模型的计算成本,而不会影响模型的性能。
Jun, 2021
本次研究对变压器模型在计算机视觉方面的应用进行了全面的回顾,包括自我关注、大规模预训练和双向编码等基础概念及其在图像分类、视频处理等多个领域的广泛应用。研究比较了不同技术在架构设计及实验价值方面的优缺点,并提出了未来的研究方向。
Jan, 2021
本文提出了三种易于实现的视觉 Transformer 变体。第一,可以在不降低精度的情况下并行处理视觉 Transformer 的残差层。第二,对注意力层的权重进行微调就足以适应更高分辨率和其他分类任务,这节省了计算量,减少了微调时的峰值内存消耗,并允许跨任务共享大部分权重。第三,添加基于 MLP 的补丁预处理层,可提高基于补丁掩模的 Bert 式自监督训练效果。作者使用 ImageNet-1k 数据集评估了这些设计选择的影响,并在 ImageNet-v2 测试集上确认了研究发现。文章在六个较小的数据集上评估了转移性能。
Mar, 2022
该研究调查了 Transformer 模型在建模视频方面的使用,并分析了在处理视频的输入级别时如何更高效地减少冗余、重新引入有用的归纳偏见以及捕捉长期的时间动态,探索了有效的自监督学习策略,表明在视频的行动分类基准测试中,与 3D ConvNets 相比,它们具有更低的计算复杂度。
Jan, 2022
通过加入输入扰动以模拟推理时间预测误差,本文提出了一种简单而有效的训练正则化方法,以减轻 Denoising Diffusion Probabilistic Models 模型中的错误积累现象,并在维持较高的采样质量的同时,显著减少训练和推理时间。
Jan, 2023
本文研究了 Transformer 网络作为具有无限维输入的序列到序列函数的逼近和估计能力,证明了当目标函数具有各向异性平滑性时,Transformer 可以通过其特征提取能力和参数共享属性避免维数爆炸,并证明了在输入发生变化时 Transformer 可以动态地估计和提取重要特征,并实现了与固定平滑度相似的收敛速度。这些理论结果支持了 Transformer 在高维数据上的实践成功。
May, 2023
我们提出了一种新的模式转换器 (Pattern Transformer),通过卷积神经网络从输入图像中提取各种模式,将每个通道表示为一个独特的模式,并将其作为视觉令牌输入到后续的 Transformer 模型中,从而实现对图像的自适应转换。在 CIFAR-10 数据集和 CIFAR-100 数据集上,我们通过仅使用通用 ResNet 和 Transformer 模型,取得了最新的性能,并在 ImageNet 上取得了优异的结果。
Aug, 2023
本文主要介绍 Transformers 在记忆效率、计算成本和性能方面的高效性,特别讨论了视觉 Transformer 用于图像分类任务,并提出了一个有效的 360 框架以使其更适用于工业应用。作者将这些应用程序归类为多个维度,如隐私、稳健性、透明度、公平性、包容性、持续学习、概率模型、近似、计算复杂性和光谱复杂性,并在多个数据集上比较各种视觉变换器模型的性能、参数数和浮点运算次数(FLOPs)。
Feb, 2023