Oct, 2023

具有预训练视觉语言模型的类别增量学习

TL;DR通过在图像编码器之后或文本编码器之前在预训练的 CLIP 模型上增加附加层,我们提出了一种利用预训练视觉 - 语言模型进行进一步调整的方法,从而使其能够适应新任务而不仅仅是零样本学习。我们对线性适配器、自注意适配器以及修改 CLIP 文本编码器输入的提示调整进行了研究。此外,我们还提出了一种参数保留的方法,通过衡量参数重要性,在增量学习过程中更好地保持稳定性和可塑性。实验证明,最简单的解决方案 —— 一个具有参数保留的线性适配器层,获得了最佳结果。多个常规基准实验一致表明这种方法显著改进了现有技术水平。