Apr, 2023

参数效率少样本微调的强基线

TL;DR本文通过一系列超过1.8k个控制实验,对少样本图像分类的PEFT(参数效率微调)方法进行了大规模、实验一致的经验分析,发现只微调层归一化参数及学习一组每个注意力矩阵的缩放参数的方法,成为Vision Transformer预训练模型最强大的微调方法。此外,对于自监督ViTs,我们发现仅学习每个注意力矩阵的缩放参数和一个Domain-residual adapter(DRA)模块即可实现无与伦比的性能表现,而模型可参数化程度更高。