小而强大:使用小适配器对 ViTs 进行微调
本文提出一种基于适配器的简单而强大的密集预测任务适配器,用于解决 Vision Transformer (ViT) 在密集预测中的性能较差问题,并成功应用于目标检测、实例分割和语义分割等多种密集预测任务中,其中 ViT-Adapter-L 模型在不使用额外数据的情况下,在 COCO test-dev 数据集上实现了 state-of-the-art 的性能。
May, 2022
提出 MiniViT 压缩框架,利用权重多路复用和自注意力权重蒸馏相结合,显著减少参数数量,同时在视觉任务中保持高精度,找到解决 Vision Transformer 参数过多的问题的方法。
Apr, 2022
提出了一种叫做 “AdaptFormer” 的方法,可将预训练的视觉 Transformer 模型快速适应于多个图像和视频识别任务中,在不更新原预训练参数的情况下,只增加不到 2%的额外参数,就能显著提高模型的可迁移性和表现
May, 2022
大规模预训练模型已在各种计算机视觉任务中取得了显著成果。然而,与其它单一任务的适应性方法相比,在多任务适应方面的研究有限,这些方法往往表现出次优的训练和推理效率。本文首先提出了一种全能视觉多任务适配器(VMT-Adapter),其训练和推理效率与任务数量近似为 O (1)。具体而言,VMT-Adapter 通过共享多个任务的知识来增强跨任务交互,并通过独立知识提取模块保留了任务特定的知识。此外,本文还提出了 VMT-Adapter-Lite,通过学习下投影和上投影之间的共享参数来进一步减少可训练参数。对四个密集场景理解任务的大量实验证明了 VMT-Adapter (-Lite) 的优越性,相比于单一任务的全面微调,它们分别实现了 3.96%(1.34%)的相对改进,并仅利用了预训练模型的约 1%(0.36%)的可训练参数。
Dec, 2023
本文提出使用卷积旁路(Convpass)在预训练的 Vision Transformer 中作为适应模块,这个方法只需要少量可训练参数即可适应大型 Vision Transformer,其表现优于当前的适应模块,并证明为了适应视觉模型需要定制视觉定向的适应模块。
Jul, 2022
透過將輕量級適配器插入凍結的預訓練模型並使用低精度量化方法以減少存儲空間,本研究發現低精度的適配器達到與高精度適配器相當的性能,且 1 位精度就足夠。
Jul, 2023
轻量级视觉 Transformer(ViT)可以通过预训练和最小的图像缩放,实现优于 ResNet 等卷积神经网络在小数据集和小图像分辨率上的性能,而不需要显著地增大图像。
Feb, 2024
TinyViT 是一种新型的、基于快速蒸馏框架的小型视觉 Transformer,通过使用蒸馏预训练模型的知识迁移以及对计算和参数进行限制,能够在减少参数数量的情况下依然具有较高的准确性,并且能够在多种下游任务中得到很好的转移效果。
Jul, 2022
本文提出基于 adapter 的参数高效迁移学习技术,以 VL-BART 和 VLT5 为例,在图像文本和视频文本基准测试上统一多任务设置,通过权重共享提高 adapter 的效率和性能,在图像文本任务和视频文本任务中将 adapter 的使用提升至总参数的 4.18% 和 3.39%,匹配了整个模型微调的性能,同时对 adapter 与任务特定提示的组合及 V&L 预训练对 adapter 的影响进行了综合分析。
Dec, 2021
本文将 ViTs 和 MLP-Mixers 从损失几何的角度进行研究,旨在提高模型的数据效率和推理泛化能力,并通过锐度感知优化器来促进平滑性,以在包括有监督学习、对抗学习、对比学习和迁移学习在内的各种任务上显着提高 ViTs 和 MLP-Mixers 的准确性和鲁棒性。
Jun, 2021