Oct, 2023

基于随机共振变压器的子标记视觉转换器嵌入

TL;DR我们发现 Vision Transformers(ViTs)中存在量化伪像,这是由于这些架构中固有的图像令牌化步骤引起的。我们提出了一种零样本方法来改善预训练 ViTs 处理空间量化的方式。具体而言,我们建议使用通过子标记空间平移扰动输入图像获得的特征集合,灵感来自于随机共振 —— 这是一种传统上应用于气候动力学和信号处理的方法。我们称此方法为 “随机共振变压器”(SRT),我们显示出 SRT 可以有效地超分辨率预训练 ViTs 的特征,捕捉到更多的局部细粒度结构,这些结构在令牌化的方式下可能会被忽视。SRT 可以应用在任何层、任何任务上,并且不需要任何微调。前者的优点在于应用于单目深度预测时变得明显,在三种不同架构上,我们展示了在 RMSE 和 RMSE-log 指标上应用 SRT 在中间 ViT 特征上而不是集成模型输出的基线模型性能平均分别提高了 4.7% 和 14.9%。在半监督视频目标分割中,SRT 也在所有指标上均改进了基线模型,平均提高了 2.4% 的 F&J 分数。我们还进一步展示了这些量化伪像可以通过自蒸馏在一定程度上进行衰减。在无监督显著区域分割上,SRT 相对于基准模型平均提高了 2.1% 的 maxF 指标。最后,尽管 SRT 仅基于像素级特征进行操作,但它也适用于像图像检索和目标发现这样的非密集预测任务,分别产生了一致的改进效果,最多分别提高了 2.6% 和 1.0%。