一种灵活的 BERT 多任务模型服务

ACLJul, 2021

A Flexible Multi-Task Model for BERT Serving

Tianwen Wei, Jianwei Qi, Shenghuan He

TL;DR本文提出一种基于 BERT 的多任务框架，采用部分微调，单任务模型知识蒸馏和模型压缩技术，使得各个子任务的共享部分得以共用，从而实现了低成本、高性能的实时任务处理。该框架在小米智能语音助手中得到了应用，整个系统处理成本降低了 86%。

Abstract

In this demonstration, we present an efficient BERT-based multi-task (MT) framework that is particularly suitable for iterative and incremental development of the tasks. The proposed framework is based on the idea of partial fine-tuning, i.e. only fine-tune some top layers of BERT whil

bert-based mt framework partial fine-tuning knowledge distillation glue tasks efficiency

发现论文，激发创造

BAM! 自然语言理解的再生多任务网络

使用知识蒸馏和教师退火的方法，可帮助多任务神经网络训练并超越单任务神经网络，文中使用该方法在 GLUE 基准测试上成功的提升了 BERT 的多任务微调性能。

Jul, 2019

自然语言理解的多任务深度神经网络

本文介绍了一种用于跨多个自然语言理解任务的表示学习的多任务深度神经网络（MT-DNN），其延伸了 Liu 等人（2015）所提出的模型，并包含一个预先训练的双向变形器语言模型（BERT）。MT-DNN 在 10 个 NLU 任务中实现了新的最先进结果，并提高了 GLUE 基准至 82.7％（2.2％的绝对改进），其代表着领先水平。同时，我们还展示了 MT-DNN 所学习到的表征，可以用较少的数据实现领域适应，比预先训练的 BERT 表征更加优秀。

Jan, 2019

BERT 在生物医学文本挖掘中的多任务学习的实证研究

研究了一种多任务学习模型，应用于生物医学和临床自然语言处理任务中，结果表明该模型相比于目前的 transformer 模型，在生物医学和临床领域的表现分别提高了 2.0% 和 1.3%，并进一步展示了任务间的相互关系。

May, 2020

有条件自适应多任务学习：减少参数和数据来提高自然语言处理的迁移学习能力

通过使用新的 Transformer 架构，包括一种新的条件注意机制以及一组任务条件模块，旨在促进权重共享，我们实现了更有效的参数共享，并通过保持预训练模型的一半权重来缓解遗忘。同时，我们使用了新的多任务数据采样策略来减少任务之间数据不平衡的负面影响。与其他 BERT Large 方法在 GLUE 上相比，我们的八任务模型超过了其他 Adapter 方法 2.8％，而我们的 24 任务模型在使用 MTL 和单任务微调的模型上表现优异。我们还展示了我们的单个多任务模型方法的较大变体在 26 个 NLP 任务中竞争，并在一些测试和开发集上取得了最先进的结果。

Sep, 2020

将 BERT 引入神经机器翻译

本文提出了一个名为 BERT-fused 的算法，通过在 NMT 模型的编码器和解码器的每个层中使用 BERT 提取表示并通过注意机制融合，实现了在监督、半监督和无监督机器翻译上取得了最先进的结果。

Feb, 2020

重思和改进端到端语音翻译的多任务学习

通过应用多任务学习，已经在端到端语音翻译中取得了显著的改进。本文研究了不同任务之间的一致性，并提出了一种改进的多任务学习方法，通过缓解长度和表征的差异来弥合模态间的差距。实验证明我们的方法达到了最先进的结果。此外，当使用额外的数据时，我们在 MuST-C 英语到西班牙语任务上以当前最先进方法所需的 20.8% 的训练时间取得了新的最先进结果。

Nov, 2023

BERT 和 PALs：多任务学习中的有效自适应投影关注层

使用预训练的 BERT 模型和适应模块（projected attention layers）实现多任务学习，通过共享单一模型降低参数数量，取得了 GLUE 基准测试最佳结果，并在文本蕴含理解数据集上达到了最新的最好结果。

Feb, 2019

通过主动学习对 BERT 进行微调，以提高低资源自然语言理解能力

本文探讨了在数据点少于 1,000 的低资源环境下利用基于预训练 Transformer 的语言模型的微调方法，通过利用基于池的主动学习加速训练同时保持标记新数据的成本不变。实验结果表明，通过最大化从未标记数据池中查询的模型的近似知识收益，可提高模型性能。最后，我们演示并分析了语言模型冻结层的好处，以减少可训练参数的数量，使其更适用于低资源环境。

Dec, 2020

MT-Clinical BERT: 使用多任务学习扩展临床信息抽取能力的 BERT 模型

采用 Multitask-Clinical BERT 模型，可同时执行包括实体抽取、PHI 识别、语言蕴含和相似性在内的 8 种临床任务，极大减轻了信息提取系统的工程负担且表现出色。

Apr, 2020

跨模态多任务语音转文字翻译与参数共享

最近的研究在端到端语音到文本翻译（ST）中提出了多任务方法，通过辅助编码器将机器翻译（MT）数据映射到最终的跨模态表示中，采用软参数共享。本研究提出了一种具有硬参数共享的 ST/MT 多任务框架，通过预处理阶段将语音和文本输入转换为两个长度相似的离散令牌序列，从而减少了语音 - 文本模态差异。通过在 MuST-C 上的实验，我们证明了我们的多任务框架平均提高了 0.5 BLEU 的关注编码器 - 解码器、连接时序分类（CTC）、转录器和联合 CTC / 关注模型，而无需外部 MT 数据。此外，我们还展示了这个框架的融入外部 MT 数据可以产生 0.8 BLEU 的改进，并且可以提高从预训练的文本模型进行迁移学习，从而产生 1.8 BLEU 的改进。

Sep, 2023