小而强大:使用小适配器对ViTs进行微调
本文将ViTs和MLP-Mixers从损失几何的角度进行研究,旨在提高模型的数据效率和推理泛化能力,并通过锐度感知优化器来促进平滑性,以在包括有监督学习、对抗学习、对比学习和迁移学习在内的各种任务上显着提高ViTs和MLP-Mixers的准确性和鲁棒性。
Jun, 2021
本篇研究介绍如何以有限数据训练Vision Transformers,并探讨使用基于参数实例鉴别方法的理论分析。结果表明,该方法优于其他方法,可捕捉特征对齐和实例相似性,并在多个ViT基础下从头开始训练7个小数据集,取得了最新的测试结果。此外,该研究还探讨了小型数据集的迁移能力,并发现从小型数据集中学习的表示甚至可以改善大规模ImageNet的训练结果。
Jan, 2022
本文改进了一种用于训练Vision Transformer(ViT)的全监督训练方法,通过仅使用三种数据增强方式,此方法优于之前的全监督训练方法,并且在图像分类、迁移学习和语义分割等任务中表现出色,同时也为ViT的自我监督方法提供了更好的基线。
Apr, 2022
提出MiniViT压缩框架,利用权重多路复用和自注意力权重蒸馏相结合,显著减少参数数量,同时在视觉任务中保持高精度,找到解决Vision Transformer参数过多的问题的方法。
Apr, 2022
本文提出一种基于适配器的简单而强大的密集预测任务适配器,用于解决Vision Transformer (ViT)在密集预测中的性能较差问题,并成功应用于目标检测、实例分割和语义分割等多种密集预测任务中,其中ViT-Adapter-L模型在不使用额外数据的情况下,在COCO test-dev数据集上实现了state-of-the-art的性能。
May, 2022
提出了一种叫做“AdaptFormer”的方法,可将预训练的视觉Transformer模型快速适应于多个图像和视频识别任务中,在不更新原预训练参数的情况下,只增加不到2%的额外参数,就能显著提高模型的可迁移性和表现
May, 2022
本文提出使用卷积旁路(Convpass)在预训练的Vision Transformer中作为适应模块,这个方法只需要少量可训练参数即可适应大型Vision Transformer,其表现优于当前的适应模块,并证明为了适应视觉模型需要定制视觉定向的适应模块。
Jul, 2022
TinyViT是一种新型的、基于快速蒸馏框架的小型视觉Transformer,通过使用蒸馏预训练模型的知识迁移以及对计算和参数进行限制,能够在减少参数数量的情况下依然具有较高的准确性,并且能够在多种下游任务中得到很好的转移效果。
Jul, 2022
透過將輕量級適配器插入凍結的預訓練模型並使用低精度量化方法以減少存儲空間,本研究發現低精度的適配器達到與高精度適配器相當的性能,且1位精度就足夠。
Jul, 2023
现有的参数高效微调(PEFT)方法通过提高参数效率,在视觉变换器(ViTs)适应中取得了显著的成功,然而,在适应过程中改善推理效率的探索仍未充分开展,这限制了预训练ViT模型的广泛应用,特别是在计算上耗费较多的情况下。在本文中,我们提出了一种名为动态调整(DyT)的新方法,来改善ViT适应的参数和推理效率。具体而言,除了使用轻量级适配器模块外,我们还提出了一个标记分发器,用于区别信息丰富的标记和不重要的标记,从而使后者动态跳过原始块,减少推理过程中的冗余计算。此外,我们探索了多种设计变体以找到DyT的最佳实践。最后,受混合专家(MoE)机制的启发,我们引入了一个增强的适配器以进一步提高适应性能。我们在包括图像/视频识别和语义分割在内的各种任务中验证了DyT。例如,在VTAB-1K基准测试中,DyT在触发71%-85%的FLOPs的情况下实现了与现有PEFT方法相当或甚至更优越的性能。
Mar, 2024