预训练 - 微调模式中出现的任务交叉线性

Feb, 2024

预训练 - 微调模式中出现的任务交叉线性

Cross-Task Linearity Emerges in the Pretraining-Finetuning Paradigm

Zhanpeng Zhou, Zijun Chen, Yilan Chen, Bo Zhang, Junchi Yan

TL;DR通过线性插值发现预训练 - 微调模型之间的交叉任务线性性，揭示神经网络在参数空间到特征空间的映射机制，提供了关于模型合并 / 编辑的新见解，并强调了预训练的影响因素。

Abstract

The pretraining-finetuning paradigm has become the prevailing trend in modern deep learning. In this work, we discover an intriguing linear phenomenon in models that are initialized from a common pretrained checkpoint and finetuned on different tasks, termed as Cross-Task Linearity (CT

pretraining-finetuning paradigm cross-task linearity (ctl)finetuned models linear maps model merging/editing

发现论文，激发创造

超参数化神经网络中多任务学习和微调的隐式正则化

通过研究辅助任务的学习，我们发现其对特征共享和任务特定特征的稀疏性进行了激励，同时提出了一种修改了预训练和微调方法以提高性能的技术。

Oct, 2023

一种用于时间序列的监督对比学习预训练 - 微调方法

引入一种新的预训练程序，利用有监督对比学习来区分每个预训练数据集中的特征，进而通过将目标数据与预训练数据集的学习动态更加紧密地对齐，以提高目标数据的准确预测。

Nov, 2023

基于不变性的视觉 Transformer 微调过程研究

本文旨在研究预训练与微调之间的关系，提出了一系列度量指标，探讨了预训练模型中不变性的传递性、微调过程中对不变性的保留与丢失、以及预训练模型在下游任务中的表现和变化。

Jul, 2023

参数高效的多任务模型融合与部分线性化

提出了一种部分线性化技术，用于改善多任务融合，并通过融合精调的任务向量来构建统一的多任务模型，取得了比标准参数高效微调技术更好的性能。

Oct, 2023

线性连通性揭示泛化策略

使用 MNLI、QQP 和 CoLA 三个任务的文本分类模型为研究对象，发现了线性路径上增加的损失不断增加的现象，并探究了不同模型之间的泛化策略差异与损失表面几何形状之间的关系。

May, 2022

卷积网络迁移学习的显式归纳偏置

本文研究在归纳迁移学习中，fine-tuning 方式相较于从头训练卷积神经网络具有更好的表现。为了提高 fine-tuned 模型在目标任务上的泛化性能，本文探究了多种正则化方法，最终推荐采用 $L^2$ 惩罚并将预训练模型作为基准的方法作为迁移学习任务的 baseline。

Feb, 2018

DLCFT：深度线性连续微调在通用增量学习中的应用

本文提出了一种基于预训练表示的持续微调模型的方法，其中使用线性化技术和二次参数正则化策略，可以在图像分类任务中实现高持续微调性能并防止遗忘，并可应用于数据、任务和类增量学习问题。

Aug, 2022

跨语言对齐的多层对比学习

本文提出了一种多级对比学习（ML-CTL）框架，使用翻译后的平行数据并显式地整合每对平行句子的单词级信息进行对比学习，以进一步提高预训练模型的跨语言能力。其中，采用了交叉零噪声对比估计（CZ-NCE）损失来减轻训练过程中小批量大小的浮点误差的影响。该方法显著提高了基础模型（mBERT）的跨语言迁移能力，并在 Xtreme 基准测试的多个零 - shot 跨语言下游任务中表现优异。

Feb, 2022

自然语言处理的预训练 - 微调范式教程

预训练 - 微调范式是一种创新的自然语言处理方法，通过使用大型预训练语言模型，在有限的训练数据下，展现出卓越的效率，尤其适用于社会科学研究。本教程全面介绍了预训练 - 微调范式的基本概念并提供实际应用示例，包括多类别分类和回归。旨在鼓励更广泛地采用该范式，教程为心理学领域的定量研究人员提供了有价值的指南。

Mar, 2024

通过调整输入空间来使用预训练的骨干网络进行持续学习

本文提出了一种用于解决深度学习模型在不稳定环境下适应性差的问题的新方法，通过避免更新网络的预训练部分，同时学习一组新的可学习参数来改善细调过程的效果，以使网络在保证适应性和稳定性之间达到平衡，得到了不错的实验结果，适用于实时场景下的持续学习问题。

Jun, 2023