Jul, 2023

E^2VPT: 一种有效高效的图像提示调整方法

TL;DR提出了一种有效和高效的视觉提示调整(E^2VPT)方法来实现大规模基于Transformer的模型适应,该方法通过引入一组可学习的键值提示和视觉提示分别到自注意力和输入层,以提高模型微调的效果,并设计了提示修剪程序来系统地修剪低重要性的提示,同时保持模型性能,极大地提升了模型的效率。实证结果表明,我们的方法在两个基准测试上优于几种最先进的基线模型,并且参数使用非常低(例如,在VTAB-1k上,模型参数的0.32%)。