超越网格：探索视觉 Transformer 的弹性输入采样

Sep, 2023

超越网格：探索视觉 Transformer 的弹性输入采样

Beyond Grids: Exploring Elastic Input Sampling for Vision Transformers

Adam Pardyl, Grzegorz Kurzejamski, Jan Olszewski, Tomasz Trzciński, Bartosz Zieliński

TL;DR我们的研究论文通过现实世界中机器人和无人机领域的高输入弹性来提高视觉转换器的性能和效率，通过形式化输入弹性概念并引入评估协议和度量标准，以及改进转换器架构和训练制度，揭示了输入采样策略相关的机会和挑战。

Abstract

vision transformers have excelled in various computer vision tasks but mostly rely on rigid input sampling using a fixed-size grid of patches. This limits their applicability in real-world problems, such as in the field of →

vision transformers input elasticity robotics uavs input sampling strategies

发现论文，激发创造

具有渐进采样的视觉 Transformer

本研究提出一种迭代和渐进式采样策略，以定位具有区分性的区域，并与 Vision Transformer 结合起来，形成 PS-ViT 网络。该网络可自适应地学习何时观察图像的哪些区域，从而在 ImageNet 数据集上表现出比原始 ViT 网络高 3.8％的 top-1 准确性（使用约 4 倍的参数和 10 倍的运算次数）。

Aug, 2021

混合分辨率令牌化的视觉 Transformer

本文介绍了一种新的图像标记方案 —— 混合分辨率标记 —— 以及如何使用 Quadtree 算法和新的显著性评分器构建图像的代表通量，进而实现更好的图像分类。

Apr, 2023

高效视觉 Transformer 的 Patch Slimming

该论文通过挖掘网络中的冗余计算研究视觉变换器的效率问题，并提出了一种新颖的修剪方法来减少计算成本，该方法称为修剪补丁法，可以移除无用的补丁，从而显著降低模型的计算成本，而不会影响模型的性能。

Jun, 2021

视觉中的 Transformer：一项综述

本次研究对变压器模型在计算机视觉方面的应用进行了全面的回顾，包括自我关注、大规模预训练和双向编码等基础概念及其在图像分类、视频处理等多个领域的广泛应用。研究比较了不同技术在架构设计及实验价值方面的优缺点，并提出了未来的研究方向。

Jan, 2021

Vision Transformers 三要素

本文提出了三种易于实现的视觉 Transformer 变体。第一，可以在不降低精度的情况下并行处理视觉 Transformer 的残差层。第二，对注意力层的权重进行微调就足以适应更高分辨率和其他分类任务，这节省了计算量，减少了微调时的峰值内存消耗，并允许跨任务共享大部分权重。第三，添加基于 MLP 的补丁预处理层，可提高基于补丁掩模的 Bert 式自监督训练效果。作者使用 ImageNet-1k 数据集评估了这些设计选择的影响，并在 ImageNet-v2 测试集上确认了研究发现。文章在六个较小的数据集上评估了转移性能。

Mar, 2022

视频 Transformer: 综述

该研究调查了 Transformer 模型在建模视频方面的使用，并分析了在处理视频的输入级别时如何更高效地减少冗余、重新引入有用的归纳偏见以及捕捉长期的时间动态，探索了有效的自监督学习策略，表明在视频的行动分类基准测试中，与 3D ConvNets 相比，它们具有更低的计算复杂度。

Jan, 2022

输入扰动减少扩散模型中的暴露偏差

通过加入输入扰动以模拟推理时间预测误差，本文提出了一种简单而有效的训练正则化方法，以减轻 Denoising Diffusion Probabilistic Models 模型中的错误积累现象，并在维持较高的采样质量的同时，显著减少训练和推理时间。

Jan, 2023

基于无穷维度输入的序列到序列函数的转换器逼近与估计能力

本文研究了 Transformer 网络作为具有无限维输入的序列到序列函数的逼近和估计能力，证明了当目标函数具有各向异性平滑性时，Transformer 可以通过其特征提取能力和参数共享属性避免维数爆炸，并证明了在输入发生变化时 Transformer 可以动态地估计和提取重要特征，并实现了与固定平滑度相似的收敛速度。这些理论结果支持了 Transformer 在高维数据上的实践成功。

May, 2023

补丁不是全部所需

我们提出了一种新的模式转换器 (Pattern Transformer)，通过卷积神经网络从输入图像中提取各种模式，将每个通道表示为一个独特的模式，并将其作为视觉令牌输入到后续的 Transformer 模型中，从而实现对图像的自适应转换。在 CIFAR-10 数据集和 CIFAR-100 数据集上，我们通过仅使用通用 ResNet 和 Transformer 模型，取得了最新的性能，并在 ImageNet 上取得了优异的结果。

Aug, 2023

Efficiency 360: 高效率视觉 Transformer

本文主要介绍 Transformers 在记忆效率、计算成本和性能方面的高效性，特别讨论了视觉 Transformer 用于图像分类任务，并提出了一个有效的 360 框架以使其更适用于工业应用。作者将这些应用程序归类为多个维度，如隐私、稳健性、透明度、公平性、包容性、持续学习、概率模型、近似、计算复杂性和光谱复杂性，并在多个数据集上比较各种视觉变换器模型的性能、参数数和浮点运算次数（FLOPs）。

Feb, 2023