通过微观偏差 - 方差分析理解最佳特征转移
使用预训练模型进行线性探测,当下游数据稀缺或少样本时,预训练特征可能是非常冗余的;而在少样本任务中,只使用最重要的特征维度的 1% 就能恢复与使用完整特征表示所达到的性能。根据理论分析,高方差和类中心之间距离较小的特征维度可能是影响少样本转移问题分类结果的混淆因素。通过调整特征重要性的软掩码来改善特征冗余问题,可以在各种预训练模型和下游数据集中提高少样本转移性能。
Oct, 2023
本文通过分析在只微调模型最后一层的情况下分类任务的性能传输,提出了一种新颖的任务转移分析方法,该方法通过改变类先验分布、标签和特征空间的方法变换源分布,并利用 Wasserstein 距离、标签分布的条件熵以及源分布的带权损失等因素说明了传输性,同时提出了最小化转移上限的变换源任务的优化问题,通过对最新的预训练模型进行大规模实证研究,证明了本方法在预测传输性方面的有效性。
Jul, 2023
在机器学习中,预训练模型对于下游任务的使用已经成为一种标准方法,虽然其实证明了效果提升,但是预训练模型的鲁棒性如何传递到下游任务中还未被充分理解。我们证明了预测器的鲁棒性可以通过其基础表示的鲁棒性来界定,与预训练协议无关。综上所述,我们的结果明确了可靠性表现在部署时所需要的表示函数的要求。
Aug, 2022
通过对方差进行可解释的对称分解,探讨了深度学习算法的偏差与方差之间的关系,发现随着网络宽度的增加,偏差单调下降,但方差存在非单调行为,并可以通过集成学习消除互作用导致的方差发散。
Nov, 2020
本文旨在研究预训练与微调之间的关系,提出了一系列度量指标,探讨了预训练模型中不变性的传递性、微调过程中对不变性的保留与丢失、以及预训练模型在下游任务中的表现和变化。
Jul, 2023
通过分析任务头的选择对特征适应的控制,进而影响下游性能,我们发现精细调节一开始的训练准确度和损失,在初始能量的变化对精调后特征的效果有重大影响,最终证明高能量会增加特征的欧几里得和余弦距离,但点积(和精调后特征的范数)会先增加后下降,并提出了一些实际原则来提高下游性能。
Feb, 2023
该研究试图从泛化、优化和可转移性的角度理解神经网络的迁移能力,发现模型的可转移性与目标数据集的相似度、训练阶段以及转移参数的一些特性相关,包括使损失函数更加有利,加快和稳定训练过程。
Sep, 2019
本研究提出了一种简单而有效的方法,即使用预训练模型进行零 - shot 结构化剪枝,从而在尽量减少计算量的情况下实现性能的提升,实验证明,在低计算量条件下对预训练模型进行卷积过滤的剪枝可以带来超过 20% 的性能提升。
Apr, 2023
通过引入一种有效且鲁棒的微调框架来解决在新任务上进行预训练模型微调可能导致不公平结果的问题,该框架中融合了权重重要性中和策略和矩阵因子分解技术,通过实验验证了其有效性。
Mar, 2024