超参数化神经网络中多任务学习和微调的隐式正则化

Oct, 2023

超参数化神经网络中多任务学习和微调的隐式正则化

Implicit regularization of multi-task learning and finetuning in overparameterized neural networks

Jack W. Lindsey, Samuel Lippl

TL;DR通过研究辅助任务的学习，我们发现其对特征共享和任务特定特征的稀疏性进行了激励，同时提出了一种修改了预训练和微调方法以提高性能的技术。

Abstract

It is common in deep learning to train networks on auxiliary tasks with the expectation that the learning will transfer, at least partially, to another task of interest. In this work, we investigate the

deep learning auxiliary tasks inductive biases feature sharing pretraining and finetuning

发现论文，激发创造

元学习以提升预训练

通过元学习，本文提出了一种基于梯度的高效算法，可以优化预训练超参数，改善了在蛋白质相互作用图和心电图数据上的预测性能。

Nov, 2021

预训练 - 微调模式中出现的任务交叉线性

通过线性插值发现预训练 - 微调模型之间的交叉任务线性性，揭示神经网络在参数空间到特征空间的映射机制，提供了关于模型合并 / 编辑的新见解，并强调了预训练的影响因素。

Feb, 2024

潜在多任务架构学习

本文提出了一种基于潜在多任务体系结构的方法，该方法可以在 OntoNotes 5.0 的人造数据和数据中的多种领域和四种不同的任务中，比以往任何一种学习潜在体系结构的多任务问题方法都表现得更优秀，可以实现高达 15% 的平均误差降低率。

May, 2017

使用多任务学习还是中间微调进行预训练编码器转移学习的决策

本文研究比较了三种自然语言处理中的迁移学习方法，即 STILTs、MTL 以及 MTL-ALL 的表现。结果显示，MTL-ALL 的性能不如其他两种方法，而在目标任务比较少的情况下，性能较好的是采用 pairwise MTL 方法。

May, 2022

有条件自适应多任务学习：减少参数和数据来提高自然语言处理的迁移学习能力

通过使用新的 Transformer 架构，包括一种新的条件注意机制以及一组任务条件模块，旨在促进权重共享，我们实现了更有效的参数共享，并通过保持预训练模型的一半权重来缓解遗忘。同时，我们使用了新的多任务数据采样策略来减少任务之间数据不平衡的负面影响。与其他 BERT Large 方法在 GLUE 上相比，我们的八任务模型超过了其他 Adapter 方法 2.8％，而我们的 24 任务模型在使用 MTL 和单任务微调的模型上表现优异。我们还展示了我们的单个多任务模型方法的较大变体在 26 个 NLP 任务中竞争，并在一些测试和开发集上取得了最先进的结果。

Sep, 2020

利用辅助大任务学习具有不一致标签的多项任务

该研究提出了一种框架，通过联合利用来自具有足够多类别的大型辅助任务和这些任务之间共享的信息，来学习在训练样本有限、标签集仅部分重叠或甚至没有的多任务。其关键思想是利用可用的标签信息，自适应地修剪辅助网络的隐藏层神经元，构建每个任务的相应网络，并伴随着个别任务的联合学习。实验结果表明，该方法比最先进的方法更加有效。

Jan, 2022

深度多任务学习和辅助任务学习简述

本文采用深度多任务学习方法，探究如何选择有用的辅助任务来提高模型性能和泛化能力。

Jul, 2020

深度神经网络中识别有益的多任务学习任务关系

本文阐述了多任务深度神经网络在 NLP 领域中的应用和优势，并探究了其在不同任务相关性下提高 NLP 性能的条件和作用。

Feb, 2017

异步多任务学习

本文提出了一种分布式和异步优化的多任务学习框架，该框架能够有效地解决数据存储在不同地点时的挑战，同时能够提高多任务学习模型的泛化性能。实证研究表明本文提出的方法在合成和实际数据集上均表现出高效和有效的性能。

Sep, 2016

基于偏差 - 方差分析的可解释性目标特征聚合多任务学习

提出了一种多任务学习方法，该方法基于任务聚类和特征变换，通过目标和特征的两阶段迭代聚合来提高回归模型的泛化能力，并在合成数据和真实世界的数据集上进行了验证。

Jun, 2024