LEVI: 通过层次集成不同视角进行通用微调

Feb, 2024

LEVI: 通过层次集成不同视角进行通用微调

LEVI: Generalizable Fine-tuning via Layer-wise Ensemble of Different Views

Yuji Roh, Qingyun Liu, Huan Gui, Zhe Yuan, Yujin Tang...

TL;DR基于已训练好的基础模型进行微调在新的下游任务中得到广泛应用，但是存在着泛化到未见分布（即超过分布；OOD）的挑战。为了改善 OOD 的泛化能力，本文提出了一种新的通用微调方法 LEVI，在保留训练和推断效率的同时，通过自适应地对预训练模型进行逐层集成和与小型任务专属模型相结合，有效地抑制了微调数据和预训练模型中的问题特征，保留了新任务所需的有用特征。通过大规模语言和视觉模型进行的广泛实验表明，LEVI 通过强调来自微调数据和预训练特征的不同视角，极大地提高了微调的泛化能力。

Abstract

fine-tuning is becoming widely used for leveraging the power of pre-trained foundation models in new downstream tasks. While there are many successes of fine-tuning on various tasks, recent studies have observed

fine-tuning out-of-distribution generalization pre-training levi

发现论文，激发创造

克服视觉语言模型微调的问题：针对 OOD 泛化

在本论文中，我们首先展示了，经过足够时间的微调但没有适当的正则化，视觉 - 语言模型在给定数据集中往往会过度拟合已知类别，导致对未知类别的表现下降。然后，我们提出了一种新颖的方法 OGEN 来解决这个问题，在关注点主要是改进经过微调模型的未知类别（OOD）泛化能力。具体而言，我们引入了一种类条件特征生成器，通过仅使用任何未知类别的类名，合成 OOD 特征。这些合成特征将提供关于未知类别的有用知识，并在联合优化时有助于规范 ID 和 OOD 数据之间的决策边界。同样重要的是，我们的自适应自蒸馏机制用于规范特征生成模型，在联合优化期间自适应地传递模型状态之间的知识，以进一步防止过度拟合。实验证实，我们的方法在不同设置下提供了令人信服的 OOD 泛化性能增益。

Jan, 2024

无监督预训练的泛化能力研究

运用一种新的理论框架，研究无监督预训练对细调模型泛化能力的影响，并通过分析两个具体场景的泛化上限，提出了一种新的预训练正则化方法，从而促进了细调模型的泛化能力。

Mar, 2024

CRoFT：用于 OOD 泛化和开放集 OOD 检测的鲁棒微调和并发优化

本文提出了一种能够改善视觉 - 语言预训练模型（VL-PTMs）对闭集外分布数据的泛化能力，同时在微调期间有效检测开放集未知类别的目标函数方法。

May, 2024

特化与泛化：对基础模型微调中灾难性遗忘的实证研究

为了解决 fine-tuning 中特性和广泛适用性之间的矛盾，我们研究了来自持续学习的多种规范化方法和来自越界通用化的权重平均方法，发现持续学习和 Wise-FT 方法可以有效减轻广泛适用性的损失，其中 Wise-FT 在平衡特性和广泛适用性方面表现最好。

Sep, 2023

通过多角度微调提高数学推理的泛化能力

本文提出了一种新的数学推理多视角微调方法，能够在避免过度依赖大型模型的情况下，提高小型语言模型的性能，并且能够灵活地学习不同的注释格式以及在不同数据集上实现良好的泛化能力和学习能力。

Jul, 2023

大型语言模型（LLM）在低资源环境中不同有效微调方法的比较分析

该研究探讨了大型语言模型的细调策略，发现可替代方法在领域外泛化方面与标准方法相媲美，强调了对有效提示的需求，并针对可用资源和任务适应性进行合适的细调方法选择。

May, 2024

揭示了细调的大型语言模型的泛化能力

这篇论文研究了大型语言模型（LLMs）和它们经过微调后的变体之间的差异，尤其关注微调对 LLMs 内在泛化能力的影响。通过在不同任务和数据集上进行广泛的实验，研究发现微调应用于生成任务和分类任务的模型在泛化到不同领域和任务时表现出不同的行为，并且在生成任务的微调中整合上下文学习策略可以增强模型的泛化能力。通过这一系统性研究，旨在为 LLMs 的微调实践做出有价值的贡献。

Mar, 2024

微调可能削弱基础模型；保留特征可能是解决方案

通过使用 LDIFS 方法，可以在保持下游任务性能不受明显影响的情况下，显著减少概念遗忘现象。

Aug, 2023

迈向经过校准的鲁棒视觉语言模型微调

就细调技术在预训练模型的潜力释放和模型在分布偏移中的鲁棒性之间存在权衡关系，研究提出了一种校准鲁棒微调（CaRot）方法，以在内部数据和外部数据集上提高预训练视觉 - 语言模型（VLMs）的校准性和鲁棒性。验证结果证明了该方法的有效性。

Nov, 2023

利用表示一致性目标提高语言模型微调

本研究提出了一种新的 fine-tuning 方法，通过抑制表示中不必要的变化来避免表示坍塌，同时对此进行了度量，并在 13 个任务和低数据量及数据标签扰动的情况下得到了显著的性能提高。

May, 2022