Lipsum-FT：使用随机文本引导的零样本模型健壮微调

ICLRApr, 2024

Lipsum-FT：使用随机文本引导的零样本模型健壮微调

Lipsum-FT: Robust Fine-Tuning of Zero-Shot Models Using Random Text Guidance

Giung Nam, Byeongho Heo, Juho Lee

TL;DR大规模对比视觉 - 语言预训练模型提供了零样本模型，其可在一系列图像分类任务中取得竞争性的表现，而无需在下游数据上进行训练。最近的研究表明，对零样本模型的额外微调可以提高下游的性能，但会削弱模型对分布变化的鲁棒性。本文通过研究基于特征失真理论和联合能量模型的鲁棒微调条件，并提出一种新的鲁棒微调算法 Lipsum-FT，该算法有效地利用视觉 - 语言预训练模型中的语言建模特性。在 DomainNet 和 ImageNet 的分布变化场景上进行的大量实验实证了我们提出的 Lipsum-FT 方法优于现有的鲁棒微调方法。

Abstract

Large-scale contrastive vision-language pre-trained models provide the zero-shot model achieving competitive performance across a range of image classification tasks without requiring training on downstream data. Recent works have confirmed that while additional →

contrastive vision-language pre-trained models fine-tuning robustness against distribution shifts lipsum-ft algorithm distribution shift scenarios

发现论文，激发创造

视觉语言模型的领域泛化鲁棒微调

在具有有限训练数据并在分布转变下无法有效推广的情况下，传统的迁移学习方法效果有限。然而，最近的基础模型在分布转变下表现出了令人印象深刻的零样本推理能力和鲁棒性。为了解决这些问题，在此提出了一种适用于流行的视觉 - 语言基础模型 CLIP 的小样本微调方法，并对具有现实分布转变的具有挑战性的基准数据集进行了评估。实验证明，在训练数据供应的各个级别上，与只有视觉的模型相比，少样本 CLIP 微调在内部分布准确性和外部分布准确性方面表现更好，这为在使用真实世界数据的小样本学习应用中采用基础模型提供了强有力的动机。

Nov, 2023

零样本模型的鲁棒微调

本文介绍了一种名为 WiSE-FT 的简单而有效的方法，可以通过对预先训练模型的加权平均来提高微调模型的鲁棒性，从而在分布移位下实现大幅度的准确性提升，并在不增加额外计算成本的情况下实现。

Sep, 2021

监督微调进一步提升视觉基础模型

图像 - 文本训练如 CLIP 已经在近年来直接影响了视觉基础模型的预训练。本文提出了一种名为 ViSFT（Vision SFT）的两阶段方法，通过对一些领域内任务进行视觉联合学习，进而增强视觉基础模型的精细知识。该方法在 8 个 V100 GPU 上不到 2 天的时间内使用 ViSFT 进行更新，展示了一个带有超过 4.4B 参数的视觉转换器在包括视觉和视觉 - 语言场景在内的各种领域外基准测试中的改进。

Jan, 2024

LiT: 基于锁定图像文本调整的零次迁移

该研究提出了对比度调整（contrastive-tuning）方法，通过对比训练使图像和文本模型对齐，该方法能够在使用预训练的同时仍然发挥其优势，其中最佳表现的是锁定的预先训练的图像模型和解锁的文本模型。LiT 模型具有其零 - shot 迁移能力，能够迁移新的视觉任务，本研究在多个预训练方法（有监督和无监督）以及不同架构 (ResNet, Vision Transformers 和 MLP-Mixer) 的三个不同的图像－文本数据集上得到了可靠的效果。

Nov, 2021

利用自然语言监督改进视觉微调

本文通过引入一种基于文本监督的微调方法（TeS），旨在缓解预训练模型中的 bias 问题，并在 11 个下游任务上进行了验证。实验结果表明，该方法能够显著提高微调的效果。

Apr, 2023

大规模双向训练的零样本图像描述

本文介绍了一种名为 BITTERS 的零 - shot 图像描述框架及数据集评估方法，通过双向图像文本训练以及精细调整提高图像描述精度。

Nov, 2022

多模态基础模型的零样本鲁棒性基准测试：一项试点研究

基于大规模的鲁棒性基准测试，本研究通过评估 CLIP 模型在自然分布偏移和对抗攻击下的性能，发现零样本多模态模型的鲁棒性明显不足，强调了对零样本多模态模型的鲁棒性进行改进的重要性。

Mar, 2024

LaFTer：使用语言和未标记图像集合进行零样本分类器的无标签调整

本文介绍了一种使用未标记的图像集合和大型语言模型自动生成标签，并通过这种非监督方式实现了零样本分类器性能的显著提高的方法。与传统的监督训练方法相比，在多个数据集上的绝对提升高达 11.7％（平均 3.8％），而与一些少样本提示基线相比的平均增益为 1.3％。

May, 2023

让预训练语言模型成为更好的少样本学习者

LM-BFF 提出了一种改进的面向小型语言模型的少样本 fine-tuning 方法以提升在多种 NLP 任务上的性能。通过与传统的 fine-tuning 方法相比，LM-BFF 组合的技术在低资源环境下具有显著改进，最高可达 30％，平均提高 11％。

Dec, 2020

预训练模型引导的零样本对抗鲁棒性微调

本研究提出了预训练模型引导的对抗微调（PMG-AFT）方法，通过精心设计辅助分支，利用原始预训练模型的监督来增强模型的零样本对抗鲁棒性。对 15 个零样本数据集进行的广泛实验证明，PMG-AFT 在顶部 1 的抗干扰准确性方面显著优于最先进的方法，平均提高了 4.99%。此外，我们的方法还能持续改善干净准确性，平均提高了 8.72%。

Jan, 2024