Feb, 2024

LEVI: 通过层次集成不同视角进行通用微调

TL;DR基于已训练好的基础模型进行微调在新的下游任务中得到广泛应用,但是存在着泛化到未见分布(即超过分布;OOD)的挑战。为了改善 OOD 的泛化能力,本文提出了一种新的通用微调方法 LEVI,在保留训练和推断效率的同时,通过自适应地对预训练模型进行逐层集成和与小型任务专属模型相结合,有效地抑制了微调数据和预训练模型中的问题特征,保留了新任务所需的有用特征。通过大规模语言和视觉模型进行的广泛实验表明,LEVI 通过强调来自微调数据和预训练特征的不同视角,极大地提高了微调的泛化能力。