一种灵活的 BERT 多任务模型服务
使用知识蒸馏和教师退火的方法,可帮助多任务神经网络训练并超越单任务神经网络,文中使用该方法在 GLUE 基准测试上成功的提升了 BERT 的多任务微调性能。
Jul, 2019
本文介绍了一种用于跨多个自然语言理解任务的表示学习的多任务深度神经网络(MT-DNN),其延伸了 Liu 等人(2015)所提出的模型,并包含一个预先训练的双向变形器语言模型(BERT)。MT-DNN 在 10 个 NLU 任务中实现了新的最先进结果,并提高了 GLUE 基准至 82.7%(2.2%的绝对改进),其代表着领先水平。同时,我们还展示了 MT-DNN 所学习到的表征,可以用较少的数据实现领域适应,比预先训练的 BERT 表征更加优秀。
Jan, 2019
研究了一种多任务学习模型,应用于生物医学和临床自然语言处理任务中,结果表明该模型相比于目前的 transformer 模型,在生物医学和临床领域的表现分别提高了 2.0% 和 1.3%,并进一步展示了任务间的相互关系。
May, 2020
通过使用新的 Transformer 架构,包括一种新的条件注意机制以及一组任务条件模块,旨在促进权重共享,我们实现了更有效的参数共享,并通过保持预训练模型的一半权重来缓解遗忘。同时,我们使用了新的多任务数据采样策略来减少任务之间数据不平衡的负面影响。与其他 BERT Large 方法在 GLUE 上相比,我们的八任务模型超过了其他 Adapter 方法 2.8%,而我们的 24 任务模型在使用 MTL 和单任务微调的模型上表现优异。我们还展示了我们的单个多任务模型方法的较大变体在 26 个 NLP 任务中竞争,并在一些测试和开发集上取得了最先进的结果。
Sep, 2020
本文提出了一个名为 BERT-fused 的算法,通过在 NMT 模型的编码器和解码器的每个层中使用 BERT 提取表示并通过注意机制融合,实现了在监督、半监督和无监督机器翻译上取得了最先进的结果。
Feb, 2020
通过应用多任务学习,已经在端到端语音翻译中取得了显著的改进。本文研究了不同任务之间的一致性,并提出了一种改进的多任务学习方法,通过缓解长度和表征的差异来弥合模态间的差距。实验证明我们的方法达到了最先进的结果。此外,当使用额外的数据时,我们在 MuST-C 英语到西班牙语任务上以当前最先进方法所需的 20.8% 的训练时间取得了新的最先进结果。
Nov, 2023
使用预训练的 BERT 模型和适应模块(projected attention layers)实现多任务学习,通过共享单一模型降低参数数量,取得了 GLUE 基准测试最佳结果,并在文本蕴含理解数据集上达到了最新的最好结果。
Feb, 2019
本文探讨了在数据点少于 1,000 的低资源环境下利用基于预训练 Transformer 的语言模型的微调方法,通过利用基于池的主动学习加速训练同时保持标记新数据的成本不变。实验结果表明,通过最大化从未标记数据池中查询的模型的近似知识收益,可提高模型性能。最后,我们演示并分析了语言模型冻结层的好处,以减少可训练参数的数量,使其更适用于低资源环境。
Dec, 2020
采用 Multitask-Clinical BERT 模型,可同时执行包括实体抽取、PHI 识别、语言蕴含和相似性在内的 8 种临床任务,极大减轻了信息提取系统的工程负担且表现出色。
Apr, 2020
最近的研究在端到端语音到文本翻译(ST)中提出了多任务方法,通过辅助编码器将机器翻译(MT)数据映射到最终的跨模态表示中,采用软参数共享。本研究提出了一种具有硬参数共享的 ST/MT 多任务框架,通过预处理阶段将语音和文本输入转换为两个长度相似的离散令牌序列,从而减少了语音 - 文本模态差异。通过在 MuST-C 上的实验,我们证明了我们的多任务框架平均提高了 0.5 BLEU 的关注编码器 - 解码器、连接时序分类(CTC)、转录器和联合 CTC / 关注模型,而无需外部 MT 数据。此外,我们还展示了这个框架的融入外部 MT 数据可以产生 0.8 BLEU 的改进,并且可以提高从预训练的文本模型进行迁移学习,从而产生 1.8 BLEU 的改进。
Sep, 2023