配置数据增强以减少视觉 Transformer 中位置嵌入的方差偏移
数据增强已成为视觉预训练模型的标准组成部分,用于捕捉增强视图之间的不变性。本研究通过实证研究来量化数据增强对性能的影响,发现图像的区域遮盖减少了学到的特征嵌入的不变性,同时提供了更多的多样性。手动注释不会改变学到的特征嵌入的不变性或多样性。MixUp 方法在多样性方面得到了显著改善,对不变性只有轻微的降低。
Oct, 2023
本文提出了一种名为 TransMix 的混合标签方法,基于 ViT 的注意力图混合标签,这种方法不需要引入额外的参数和 FLOP,并且在不同的基于 ImageNet 数据集的分类任务中都能够显著提高 ViT 的性能以及在语义分割,目标检测和实例分割上的迁移能力,同时在 4 种不同数据集的评估中也表现得更加稳健。
Nov, 2021
本研究系统评估了混合型数据增强方法在生理时间序列分类中的性能,并发现混合型增强方法能够显著改善数据集的性能,而且不需要专业知识或大量参数调整。此外,还总结了混合型增强方法的独特属性,并强调在生理时间序列数据中使用混合型增强方法的潜在益处。
Sep, 2023
本文将 ViTs 和 MLP-Mixers 从损失几何的角度进行研究,旨在提高模型的数据效率和推理泛化能力,并通过锐度感知优化器来促进平滑性,以在包括有监督学习、对抗学习、对比学习和迁移学习在内的各种任务上显着提高 ViTs 和 MLP-Mixers 的准确性和鲁棒性。
Jun, 2021
图像模型的嵌入空间已经被证明可以编码一系列的社会偏见,该研究调查了对于视觉转换器(ViT)中出现这些偏见的具体因素,并测量了训练数据、模型架构和训练目标对 ViTs 学习表示中的社会偏见的影响。研究结果表明,基于反事实增强训练的扩散式图像编辑可以缓解偏见,但并不能完全消除;而且,相较于小模型,我们发现大模型的偏见较少,并且使用辨别目标进行训练的模型比使用生成目标进行训练的模型偏见较少。此外,我们观察到学习到的社会偏见存在不一致性,令人惊讶的是,当使用不同的自监督目标在相同数据集上训练时,ViTs 可能表现出相反的偏见。我们的发现揭示了导致社会偏见出现的因素,并提出了基于模型设计选择可以实现相当大程度的公平改善。
Aug, 2023
在视频分类任务中,我们首次系统地分析了各种数据增强策略的有效性,并提出了一个强大的增强策略 VideoMix,该策略通过将视频立方体插入另一个视频来创建新的训练视频;在各种数据增强基准上,VideoMix 一直表现优秀,在 Kinetics、Something-Something-V2 基准测试中始终优于其他增强基线,并提高了 THUMOS'14 中弱监督的动作定位性能和 AVA 中的视频检测任务。
Dec, 2020
本文通过系统的实证研究,发现增加计算资源和数据增强可以弥补 Vision Transformers 学习小规模数据时的归纳偏差,从而实现与大规模数据学习相同精度的效果。我们在 ImageNet-21k 数据集上训练了不同规模的 ViT 模型,比大规模数据集 JFT-300M 上的同类模型表现更好。
Jun, 2021
数据增强通过合成更多的训练样本提高深度学习模型的泛化能力。TransformMix 是一种自动化方法,通过应用学习到的变换和混合扩增策略来创建具有正确和重要信息的混合图像,从而提高性能。
Mar, 2024
对于 Vision Transformers 来说,Droppos 是一种新颖的自我监督任务,它通过增强位置感知能力来提升模型性能。Droppos 通过随机丢弃一部分位置嵌入,根据视觉外观分类具体位置,采用位置平滑和注意力重构策略来解决类别相似性问题,实验结果表明 Droppos 在各类基准测试上表现出色,与现有的自我监督方法相比具有竞争力。
Sep, 2023
本文提出了一种自适应的多相位锚定算法,该算法可无缝集成到视觉 Transformer 模型中,以确保贴片嵌入和子采样关注模块的移位等变,并利用深度卷积编码位置信息。
Jun, 2023