大型卷积模型的参数高效调优
本文介绍了 Fine-tuning pre-trained models 方法的缺点,提出了采用参数稀疏性进行参数调优的方法,并且通过理论分析表明,这种参数稀疏性会在一定程度上控制稳定性上限,提高泛化能力;同时还提出了一种新的 SAM 方法用于选择可调参数,并通过实验证实了理论分析的正确性。
Nov, 2022
该研究提出了参数高效调整的设计范式,发现适用于不同实验设置的设计模式,包括层分组、可训练参数分配、可调整组和策略分配,并通过实验证明,这些方法在自然语言处理的不同任务和不同主干模型上始终明显优于经过研究的参数高效微调策略。
Jan, 2023
提出了一种新的谱感知适应框架,即 SODA,用于大规模预训练生成模型的参数高效适应,通过调整预训练权重的奇异值和基向量来实现参数高效适应正交矩阵,提供了一种谱感知替代现有微调方法的有效选择。
May, 2024
本文提出一种基于张量 Tucker 分解的低参数训练方法,通过自适应剪枝卷积核的 Tucker 秩来降低训练成本,并在保证损失下降的情况下,达到与完整基线模型相当甚至更好的性能。
May, 2023
该研究旨在从新的角度 —— 发现内在的任务特定子空间,重新参数化和微调预训练语言模型。研究表明,在这个子空间中,预训练语言模型可以通过小部分可调参数进行有效地微调,而一些突兀出现的维度则关键地诱发了特定任务的知识。
May, 2023
本研究探讨了一种新的用于 fine-tuning 神经网络的方法,称为子集 fine-tuning,即只对部分层进行精细调整并锁定其余权重,该方法可以在不增加计算成本的情况下实现多任务的学习和推理,并在数据稀缺的情况下实现与完全 fine-tuning 模型相当甚至更好的性能。
Feb, 2023
本文研究了视觉变换器的参数高效模型适应策略,提出了一种基于局部内在维度的参数高效模型适应框架,并通过实验比较了不同方法在各项指标下的表现。结果表明,该框架在少样本下的 20 个图像分类数据集和全样本下的 7 个图像分类数据集上,在准确性和参数效率之间的平衡上表现最佳。
Mar, 2022
为了解决小规模数据下优化问题,我们提出了一种对预训练深度神经网络进行微调的简单而有效的正则化方法,它的核心策略是将模型参数聚类,确保聚类内的相似性和聚类间的差异性,提高参数搜索空间的正规性; 具体而言,我们使用强化学习搜索策略和递归网络来学习每个网络层的最优分组,实验结果表明,相较於其他最新的基于微调的 k-shot 学习策略,我们的方法可以轻松应用于几种流行的卷积神经网络,提高了 10% 以上的性能。
Oct, 2017
本文提供了一个统一框架来探讨 NLP 中参数高效的迁移学习方法,将多种不同的方法重新构建为预训练模型中特定 hidden states 的修改,定义了一组设计维度以表明不同方法的变化方向,如计算修改的函数和应用修改的位置等。通过涵盖机器翻译、文本摘要、语言理解和文本分类基准的全面实证研究,识别了以前方法中的重要设计选择。此外,我们的统一框架使得设计元素可以在不同方法之间进行转移,从而实现了比以前更高效的 fine-tuning 方法。
Oct, 2021
本文系统概述和比较了 40 多篇发表于 2019 年 2 月至 2023 年 2 月之间的参数高效微调方法,这些方法旨在通过仅训练小量参数来解决微调大型语言模型的不可行性和不实用性,提供了一种包括多种方法的分类方法,并重点关注实际效率和微调超大规模语言模型。
Mar, 2023