基于随机共振变压器的子标记视觉转换器嵌入

Oct, 2023

基于随机共振变压器的子标记视觉转换器嵌入

Sub-token ViT Embedding via Stochastic Resonance Transformers

Dong Lao, Yangchao Wu, Tian Yu Liu, Alex Wong, Stefano Soatto

TL;DR我们发现 Vision Transformers（ViTs）中存在量化伪像，这是由于这些架构中固有的图像令牌化步骤引起的。我们提出了一种零样本方法来改善预训练 ViTs 处理空间量化的方式。具体而言，我们建议使用通过子标记空间平移扰动输入图像获得的特征集合，灵感来自于随机共振 —— 这是一种传统上应用于气候动力学和信号处理的方法。我们称此方法为 “随机共振变压器”（SRT），我们显示出 SRT 可以有效地超分辨率预训练 ViTs 的特征，捕捉到更多的局部细粒度结构，这些结构在令牌化的方式下可能会被忽视。SRT 可以应用在任何层、任何任务上，并且不需要任何微调。前者的优点在于应用于单目深度预测时变得明显，在三种不同架构上，我们展示了在 RMSE 和 RMSE-log 指标上应用 SRT 在中间 ViT 特征上而不是集成模型输出的基线模型性能平均分别提高了 4.7% 和 14.9%。在半监督视频目标分割中，SRT 也在所有指标上均改进了基线模型，平均提高了 2.4% 的 F&J 分数。我们还进一步展示了这些量化伪像可以通过自蒸馏在一定程度上进行衰减。在无监督显著区域分割上，SRT 相对于基准模型平均提高了 2.1% 的 maxF 指标。最后，尽管 SRT 仅基于像素级特征进行操作，但它也适用于像图像检索和目标发现这样的非密集预测任务，分别产生了一致的改进效果，最多分别提高了 2.6% 和 1.0%。

Abstract

We discover the presence of quantization artifacts in vision transformers (ViTs), which arise due to the image tokenization step inherent in these architectures. These artifacts result in coarsely quantized featu

quantization artifacts vision transformers spatial quantization stochastic resonance transformer pre-trained models

发现论文，激发创造

从标记稀疏化视角提高视觉 Transformer 的效率

本文介绍了一种基于语义标记的 ViT 模型，可以用于图像分类以及物体检测和实例分割等任务，并通过对空间中的池化图像标记进行 attention 的方法，来取代大量的图像标记，从而实现了网络的降维升效。

Mar, 2023

SVT: 超级令牌视频变形器用于高效视频理解

本文提出了一种超词汇视频变形器（SVT），其中包含语义池模块（SPM），该模块根据它们的语义沿着视觉变换器的深度聚合潜在表示，并因此减少了视频输入中固有的冗余；方法在 Kinectics-400 和 Something-Something-V2 数据集上得到了验证，并提高了 MAE 预训练 ViT-B 和 ViT-L 的准确性以及 MViTv2-B 的准确性。

Apr, 2023

使用增强视觉 Transformer 进行图像重建

本文提出了一个基于 Vision Transformer (ViT) 的图像重构框架，利用 4 种优化技术和生成对抗网络（GANs）启发的对抗性损失函数，用于图像去噪和修复，实验表明该框架在结构相似性（SSIM）方面比 U-Net 模型高出超过 3.5％，对于这两个任务，提议的增强算法进一步展示了超过基准的 extasciitilde5％SSIM 的改进。

Jul, 2023

混合分辨率令牌化的视觉 Transformer

本文介绍了一种新的图像标记方案 —— 混合分辨率标记 —— 以及如何使用 Quadtree 算法和新的显著性评分器构建图像的代表通量，进而实现更好的图像分类。

Apr, 2023

去噪视觉变换器

我们提出了一种噪声模型和去噪方法来解决 Vision Transformers 中存在的网格伪影问题，该方法能有效改善模型在语义和几何任务中的性能。

Jan, 2024

学习轨迹感知的视频超分辨率转换器

本研究提出了一种基于轨迹感知 Transformer 的视频超分辨率方法，利用空间和时间的信息来实现视频帧的超分辨率，实验证明该方法优于现有的超分辨率模型。

Apr, 2022

视觉 Transformer：面向计算机视觉的基于令牌的图像表示和处理

本文通过使用视觉 Transformer 在语义标记空间中密集地建模标记关系并减少卷积计算量，从而在 ImageNet top-1 和 LIP，COCO-stuff 图像分割测试上表现出了显着的优势。

Jun, 2020

空间 - 时间令牌选择的有效视频 Transformer

本文提出了 STTS 框架，这是一种动态选择少量视频关键信息的方法，可以在减小计算量的同时保持较高的识别准确率。

Nov, 2021

视频超分辨率变换器

本研究采用 Transformer 对视频超分辨率问题进行了改进，引入了空时卷积自注意力层以利用数据位置信息，设计了双向光流驱动前馈层以发现不同视频帧之间的相关性并对齐特征，实验证明了这种方法的有效性。

Jun, 2021

MPTQ-ViT：VisionTransformer 的混合精度后训练量化

提出了 SmoothQuant with bias term (SQ-b) 和 optimal scaling factor ratio search (OPT-m) 方法以及一种多精度后训练量化框架 (MPTQ-ViT)，在 ImageNet 数据集上进行的实验表明，与现有方法相比，所提方法在 4 位和 5 位量化的 ViTs 上均取得了显著的准确度提高。

Jan, 2024