ICLRApr, 2024

Lipsum-FT:使用随机文本引导的零样本模型健壮微调

TL;DR大规模对比视觉 - 语言预训练模型提供了零样本模型,其可在一系列图像分类任务中取得竞争性的表现,而无需在下游数据上进行训练。最近的研究表明,对零样本模型的额外微调可以提高下游的性能,但会削弱模型对分布变化的鲁棒性。本文通过研究基于特征失真理论和联合能量模型的鲁棒微调条件,并提出一种新的鲁棒微调算法 Lipsum-FT,该算法有效地利用视觉 - 语言预训练模型中的语言建模特性。在 DomainNet 和 ImageNet 的分布变化场景上进行的大量实验实证了我们提出的 Lipsum-FT 方法优于现有的鲁棒微调方法。