超参数化神经网络中多任务学习和微调的隐式正则化
通过线性插值发现预训练 - 微调模型之间的交叉任务线性性,揭示神经网络在参数空间到特征空间的映射机制,提供了关于模型合并 / 编辑的新见解,并强调了预训练的影响因素。
Feb, 2024
本文提出了一种基于潜在多任务体系结构的方法,该方法可以在 OntoNotes 5.0 的人造数据和数据中的多种领域和四种不同的任务中,比以往任何一种学习潜在体系结构的多任务问题方法都表现得更优秀,可以实现高达 15% 的平均误差降低率。
May, 2017
本文研究比较了三种自然语言处理中的迁移学习方法,即 STILTs、MTL 以及 MTL-ALL 的表现。结果显示,MTL-ALL 的性能不如其他两种方法,而在目标任务比较少的情况下,性能较好的是采用 pairwise MTL 方法。
May, 2022
通过使用新的 Transformer 架构,包括一种新的条件注意机制以及一组任务条件模块,旨在促进权重共享,我们实现了更有效的参数共享,并通过保持预训练模型的一半权重来缓解遗忘。同时,我们使用了新的多任务数据采样策略来减少任务之间数据不平衡的负面影响。与其他 BERT Large 方法在 GLUE 上相比,我们的八任务模型超过了其他 Adapter 方法 2.8%,而我们的 24 任务模型在使用 MTL 和单任务微调的模型上表现优异。我们还展示了我们的单个多任务模型方法的较大变体在 26 个 NLP 任务中竞争,并在一些测试和开发集上取得了最先进的结果。
Sep, 2020
该研究提出了一种框架,通过联合利用来自具有足够多类别的大型辅助任务和这些任务之间共享的信息,来学习在训练样本有限、标签集仅部分重叠或甚至没有的多任务。其关键思想是利用可用的标签信息,自适应地修剪辅助网络的隐藏层神经元,构建每个任务的相应网络,并伴随着个别任务的联合学习。实验结果表明,该方法比最先进的方法更加有效。
Jan, 2022
本文提出了一种分布式和异步优化的多任务学习框架,该框架能够有效地解决数据存储在不同地点时的挑战,同时能够提高多任务学习模型的泛化性能。实证研究表明本文提出的方法在合成和实际数据集上均表现出高效和有效的性能。
Sep, 2016
提出了一种多任务学习方法,该方法基于任务聚类和特征变换,通过目标和特征的两阶段迭代聚合来提高回归模型的泛化能力,并在合成数据和真实世界的数据集上进行了验证。
Jun, 2024