配置数据增强以减少视觉 Transformer 中位置嵌入的方差偏移

May, 2024

配置数据增强以减少视觉 Transformer 中位置嵌入的方差偏移

Configuring Data Augmentations to Reduce Variance Shift in Positional Embedding of Vision Transformers

Bum Jun Kim, Sang Woo Kim

TL;DR我们提供了关于 Vision Transformers 中数据增强的问题以及正确的配置，以消除方差偏移的副作用，并通过实验证明采用我们的准则与当前数据增强配置相比能够提高 Vision Transformers 的性能。

Abstract

vision transformers (ViTs) have demonstrated remarkable performance in a variety of vision tasks. Despite their promising capabilities, training a ViT requires a large amount of diverse data. Several studies empirically found that using rich →

vision transformers data augmentations positional embedding variance shift performance improvement

发现论文，激发创造

探索数据扩增在自监督 / 半监督 / 全监督预训练模型上的应用

数据增强已成为视觉预训练模型的标准组成部分，用于捕捉增强视图之间的不变性。本研究通过实证研究来量化数据增强对性能的影响，发现图像的区域遮盖减少了学到的特征嵌入的不变性，同时提供了更多的多样性。手动注释不会改变学到的特征嵌入的不变性或多样性。MixUp 方法在多样性方面得到了显著改善，对不变性只有轻微的降低。

Oct, 2023

TransMix：面向 Transformer 视觉任务的混合注意力机制

本文提出了一种名为 TransMix 的混合标签方法，基于 ViT 的注意力图混合标签，这种方法不需要引入额外的参数和 FLOP，并且在不同的基于 ImageNet 数据集的分类任务中都能够显著提高 ViT 的性能以及在语义分割，目标检测和实例分割上的迁移能力，同时在 4 种不同数据集的评估中也表现得更加稳健。

Nov, 2021

生理时间序列数据中基于混合的数据增强方法的实证研究

本研究系统评估了混合型数据增强方法在生理时间序列分类中的性能，并发现混合型增强方法能够显著改善数据集的性能，而且不需要专业知识或大量参数调整。此外，还总结了混合型增强方法的独特属性，并强调在生理时间序列数据中使用混合型增强方法的潜在益处。

Sep, 2023

当视觉 Transformer 在没有预训练或强数据增强的情况下优于 ResNets

本文将 ViTs 和 MLP-Mixers 从损失几何的角度进行研究，旨在提高模型的数据效率和推理泛化能力，并通过锐度感知优化器来促进平滑性，以在包括有监督学习、对抗学习、对比学习和迁移学习在内的各种任务上显着提高 ViTs 和 MLP-Mixers 的准确性和鲁棒性。

Jun, 2021

视觉 Transformer 中的社会偏见的多维分析

图像模型的嵌入空间已经被证明可以编码一系列的社会偏见，该研究调查了对于视觉转换器（ViT）中出现这些偏见的具体因素，并测量了训练数据、模型架构和训练目标对 ViTs 学习表示中的社会偏见的影响。研究结果表明，基于反事实增强训练的扩散式图像编辑可以缓解偏见，但并不能完全消除；而且，相较于小模型，我们发现大模型的偏见较少，并且使用辨别目标进行训练的模型比使用生成目标进行训练的模型偏见较少。此外，我们观察到学习到的社会偏见存在不一致性，令人惊讶的是，当使用不同的自监督目标在相同数据集上训练时，ViTs 可能表现出相反的偏见。我们的发现揭示了导致社会偏见出现的因素，并提出了基于模型设计选择可以实现相当大程度的公平改善。

Aug, 2023

VideoMix：重新思考视频分类的数据增强

在视频分类任务中，我们首次系统地分析了各种数据增强策略的有效性，并提出了一个强大的增强策略 VideoMix，该策略通过将视频立方体插入另一个视频来创建新的训练视频；在各种数据增强基准上，VideoMix 一直表现优秀，在 Kinetics、Something-Something-V2 基准测试中始终优于其他增强基线，并提高了 THUMOS'14 中弱监督的动作定位性能和 AVA 中的视频检测任务。

Dec, 2020

Vision Transformers 的数据、增强和正则化训练

本文通过系统的实证研究，发现增加计算资源和数据增强可以弥补 Vision Transformers 学习小规模数据时的归纳偏差，从而实现与大规模数据学习相同精度的效果。我们在 ImageNet-21k 数据集上训练了不同规模的 ViT 模型，比大规模数据集 JFT-300M 上的同类模型表现更好。

Jun, 2021

TransformMix: 从数据中学习变换和混合策略

数据增强通过合成更多的训练样本提高深度学习模型的泛化能力。TransformMix 是一种自动化方法，通过应用学习到的变换和混合扩增策略来创建具有正确和重要信息的混合图像，从而提高性能。

Mar, 2024

DropPos: 基于重构被删除位置的预训练视觉变换器

对于 Vision Transformers 来说，Droppos 是一种新颖的自我监督任务，它通过增强位置感知能力来提升模型性能。Droppos 通过随机丢弃一部分位置嵌入，根据视觉外观分类具体位置，采用位置平滑和注意力重构策略来解决类别相似性问题，实验结果表明 Droppos 在各类基准测试上表现出色，与现有的自我监督方法相比具有竞争力。

Sep, 2023

唤醒视觉 Transformer 中的平移等变性

本文提出了一种自适应的多相位锚定算法，该算法可无缝集成到视觉 Transformer 模型中，以确保贴片嵌入和子采样关注模块的移位等变，并利用深度卷积编码位置信息。

Jun, 2023