ScaLearn: 通过学习缩放实现简单且高效率的任务迁移
通过使用新的 Transformer 架构,包括一种新的条件注意机制以及一组任务条件模块,旨在促进权重共享,我们实现了更有效的参数共享,并通过保持预训练模型的一半权重来缓解遗忘。同时,我们使用了新的多任务数据采样策略来减少任务之间数据不平衡的负面影响。与其他 BERT Large 方法在 GLUE 上相比,我们的八任务模型超过了其他 Adapter 方法 2.8%,而我们的 24 任务模型在使用 MTL 和单任务微调的模型上表现优异。我们还展示了我们的单个多任务模型方法的较大变体在 26 个 NLP 任务中竞争,并在一些测试和开发集上取得了最先进的结果。
Sep, 2020
大规模预训练模型已在各种计算机视觉任务中取得了显著成果。然而,与其它单一任务的适应性方法相比,在多任务适应方面的研究有限,这些方法往往表现出次优的训练和推理效率。本文首先提出了一种全能视觉多任务适配器(VMT-Adapter),其训练和推理效率与任务数量近似为 O (1)。具体而言,VMT-Adapter 通过共享多个任务的知识来增强跨任务交互,并通过独立知识提取模块保留了任务特定的知识。此外,本文还提出了 VMT-Adapter-Lite,通过学习下投影和上投影之间的共享参数来进一步减少可训练参数。对四个密集场景理解任务的大量实验证明了 VMT-Adapter (-Lite) 的优越性,相比于单一任务的全面微调,它们分别实现了 3.96%(1.34%)的相对改进,并仅利用了预训练模型的约 1%(0.36%)的可训练参数。
Dec, 2023
本文提出了一种分布式和异步优化的多任务学习框架,该框架能够有效地解决数据存储在不同地点时的挑战,同时能够提高多任务学习模型的泛化性能。实证研究表明本文提出的方法在合成和实际数据集上均表现出高效和有效的性能。
Sep, 2016
多任务学习中的任务平衡问题通过引入尺度不变的多任务学习方法 (SI-MTL) 得到缓解,SI-MTL 包含对任务损失进行的对数变换以保持尺度不变,并采用尺度不变的梯度平衡方法 (SI-G) 来规范化所有任务梯度,实验证明 SI-G 的有效性以及 SI-MTL 的最先进性能。
Aug, 2023
通过适配器模块实现神经网络参数共享,避免针对每个任务都需要重新训练整个神经网络的问题。将适配器模块应用于 BERT Transformer 可以达到接近完全微调的性能,同时每个任务只需增加 3.6%的可训练参数,表现十分出色。
Feb, 2019
ALTER 是一个基于小型语言模型的多任务学习系统,它通过混合任务适应器来同时处理多个自然语言处理任务,以支持领域特定的应用。实验证明,ALTER 提出的 MTA 架构和二阶段训练方法实现了良好的性能。
Sep, 2023
挑战现有多任务学习 (MTL) 框架,提出新方法通过分布匹配实现任务间的知识交流,证明少量注释或非重叠注释情况下的 MTL 仍能成功,且在各个领域的案例研究中均带来了较大的性能提升。
Jan, 2024
本文介绍了一种基于小参数集合的深度神经网络迁移学习和多任务学习的新方法,通过调整网络中的特定组件使其适应不同任务,以达到在多个任务中共享参数并且性能表现良好的目的。
Oct, 2018
该论文提出了一种通过学习区分微调和适应性 PLMs 的方法,使用动态低秩重参数化和学习结构控制器来实现数据和参数高效的自适应,并在对话完成、摘要生成等任务上展示出明显提升。
Jul, 2022
本文探讨了在小语言模型中,模型规模大小,多任务学习,指令调整,fine-tuning 和域内学习等对模型性能影响,其中通用 MTL 和域内 MTL 能够分别提升模型相对 31% 和 37.6% 的效果,并且与先前的研究结果不同,指令调整仅提供了小幅度的 2% 性能改进。
Oct, 2022