模型库:我们只需要一些微调的模型
通过平均训练以不同超参数配置微调的模型,提高现有模型的性能和鲁棒性,从而在多个图像分类和自然语言处理任务中达到新的最先进技术水平。
Mar, 2022
通过融合多个经过微调的模型,平均模型参数来达到更好的基础模型的目的,并且发现融合模型效果常常优于预训练模型,同时融合比互训模型更鲁棒且不受目标任务依赖。
Apr, 2022
本文研究预训练模型在下游任务中的迁移方法,发现在预训练特征优秀且分布偏移较大的情况下,与全微调相比,线性探针能够获得更好的模型鲁棒性,同时,我们证明以固定或随机线性层初始化的全微调方法会导致模型在分布偏移下的错误率明显上升,而线性探针再进行全微调的策略则能够优化这一问题。
Feb, 2022
本文提出了一种经过正则化的 fine-tuning 方法,通过在数据流形内插值产生假样本,加强 In-distribution 采样的平滑性;同时通过在采样流形外的假样本输出平均分布的方式来提高 OOD 数据的可靠性,实验证明了该方法的有效性。
Oct, 2020
本研究探究了直接利用预训练语言模型进行 Out-of-Distribution 检测的有效性,并证明了其近乎完美的检测性能,同时揭示了 Fine-tuning 和其在 ID 精度与 OOD 检测性能之间的平衡作用。
May, 2023
评估预训练模型在下游任务中的性能时,除了评估下游模型的内分布准确性外,还必须评估其对于一般化和识别离群样本的能力。本文揭示了侵入性微调技术所带来的隐藏成本,提出了 Reprogrammer 方法来改善下游模型在内分布、离群泛化和离群检测任务中的整体性能。实证证据表明 Reprogrammer 是非侵入性的,能产生更优秀的下游模型,并通过添加额外的表示残差连接进一步保留预训练表示,从而获得更安全、更强大的下游模型,能在许多内分布分类、离群泛化和离群检测设置中表现出色。
Mar, 2024
基于已训练好的基础模型进行微调在新的下游任务中得到广泛应用,但是存在着泛化到未见分布(即超过分布;OOD)的挑战。为了改善 OOD 的泛化能力,本文提出了一种新的通用微调方法 LEVI,在保留训练和推断效率的同时,通过自适应地对预训练模型进行逐层集成和与小型任务专属模型相结合,有效地抑制了微调数据和预训练模型中的问题特征,保留了新任务所需的有用特征。通过大规模语言和视觉模型进行的广泛实验表明,LEVI 通过强调来自微调数据和预训练特征的不同视角,极大地提高了微调的泛化能力。
Feb, 2024
本文介绍了一种名为 WiSE-FT 的简单而有效的方法,可以通过对预先训练模型的加权平均来提高微调模型的鲁棒性,从而在分布移位下实现大幅度的准确性提升,并在不增加额外计算成本的情况下实现。
Sep, 2021
AutoFT 是一种基于数据驱动的方法,用于指导基础模型的微调,以优化性能和改善泛化能力。实验证明 AutoFT 在多个分布转移任务上表现出色,显著提高了对新的异常数据的泛化能力,并在 WILDS-iWildCam 和 WILDS-FMoW 基准测试上取得了新的最佳结果。
Jan, 2024
就细调技术在预训练模型的潜力释放和模型在分布偏移中的鲁棒性之间存在权衡关系,研究提出了一种校准鲁棒微调(CaRot)方法,以在内部数据和外部数据集上提高预训练视觉 - 语言模型(VLMs)的校准性和鲁棒性。验证结果证明了该方法的有效性。
Nov, 2023