BERT 和 PALs：多任务学习中的有效自适应投影关注层

ICMLFeb, 2019

BERT 和 PALs：多任务学习中的有效自适应投影关注层

BERT and PALs: Projected Attention Layers for Efficient Adaptation in Multi-Task Learning

Asa Cooper Stickland, Iain Murray

TL;DR使用预训练的 BERT 模型和适应模块（projected attention layers）实现多任务学习，通过共享单一模型降低参数数量，取得了 GLUE 基准测试最佳结果，并在文本蕴含理解数据集上达到了最新的最好结果。

Abstract

multi-task learning shares information between related tasks, sometimes reducing the number of parameters required. State-of-the-art results across multiple natural language understanding tasks in the

multi-task learning natural language understanding glue benchmark bert projected attention layers

发现论文，激发创造

有条件自适应多任务学习：减少参数和数据来提高自然语言处理的迁移学习能力

通过使用新的 Transformer 架构，包括一种新的条件注意机制以及一组任务条件模块，旨在促进权重共享，我们实现了更有效的参数共享，并通过保持预训练模型的一半权重来缓解遗忘。同时，我们使用了新的多任务数据采样策略来减少任务之间数据不平衡的负面影响。与其他 BERT Large 方法在 GLUE 上相比，我们的八任务模型超过了其他 Adapter 方法 2.8％，而我们的 24 任务模型在使用 MTL 和单任务微调的模型上表现优异。我们还展示了我们的单个多任务模型方法的较大变体在 26 个 NLP 任务中竞争，并在一些测试和开发集上取得了最先进的结果。

Sep, 2020

一种灵活的 BERT 多任务模型服务

本文提出一种基于 BERT 的多任务框架，采用部分微调，单任务模型知识蒸馏和模型压缩技术，使得各个子任务的共享部分得以共用，从而实现了低成本、高性能的实时任务处理。该框架在小米智能语音助手中得到了应用，整个系统处理成本降低了 86%。

Jul, 2021

NLP 的参数高效迁移学习

通过适配器模块实现神经网络参数共享，避免针对每个任务都需要重新训练整个神经网络的问题。将适配器模块应用于 BERT Transformer 可以达到接近完全微调的性能，同时每个任务只需增加 3.6％的可训练参数，表现十分出色。

Feb, 2019

元学习差异性：为大型语言模型准备高效迁移

该论文提出了一种通过学习区分微调和适应性 PLMs 的方法，使用动态低秩重参数化和学习结构控制器来实现数据和参数高效的自适应，并在对话完成、摘要生成等任务上展示出明显提升。

Jul, 2022

HyperPELT：统一参数高效的语言模型调整，适用于语言和视觉语言任务

本文提出一种基于预训练的参数高效迁移学习框架，使用共享的超网络对预训练语言模型进行微调，支持语言和视觉任务，并在多任务学习中具有较好的性能和转移能力。

Mar, 2022

多任务学习中信息传输的理解与改善

本文研究了多任务学习的方法，使用共享特征表示所有任务，并研究了线性和 ReLU 激活模型的理论。通过实验证明了任务数据的对齐有助于多任务训练和转移学习，特别地，我们的对齐方法比 BERT-LARGE 在 5 个 GLUE 任务上平均提高了 2.35％的得分，并设计了基于 SVD 的任务重新加权方案来提高多任务训练在多标签图像数据集上的鲁棒性。

May, 2020

不要以最后一层来评估语言模型：分层注意力池化对比学习

该论文介绍了一种基于注意力池化策略和对比学习目标的方法，可以从预训练的语言模型中提取语言学特征和层次信号，用于下游任务，并在语义文本相似度和语义搜索任务中取得了显著提升。

Sep, 2022

共享超网络的 Transformer 多任务微调的参数高效方法

本文提出了一种通过使用共享的超网络生成适配器参数来学习所有层和任务的参数高效的多任务学习框架，从而在跨任务共享知识的同时，通过任务特定的适配器使模型适应每个单独的任务，并在已知的 GLUE 基准测试中实现了多任务学习的改进性能。

Jun, 2021

多任务强化学习的预测任务特定层

通过引入新的架构 Projected Task-Specific Layers (PTSL)，该论文通过使用特定任务层进行共享和可变任务信息的密集修正，从而成功地在多任务强化学习中解决了任务间的负面干扰，并在 Meta-World 的 MT10 和 MT50 基准测试中优于现有技术。

Sep, 2023

eP-ALM: 语言模型的高效感知增强

本文提出了一种高效适应单模预训练模型解决多模任务的方法 eP-ALM，在冻结大多数参数、仅训练一个线性投影层，前置仅一个可训练标记的情况下，显著优于基线，并在图像、视频和音频模态下跨越 VQA 和字幕的多个基准测试中取得了最佳性能。

Mar, 2023