自然语言理解的多任务深度神经网络

ACLJan, 2019

自然语言理解的多任务深度神经网络

Multi-Task Deep Neural Networks for Natural Language Understanding

Xiaodong Liu, Pengcheng He, Weizhu Chen, Jianfeng Gao

TL;DR本文介绍了一种用于跨多个自然语言理解任务的表示学习的多任务深度神经网络（MT-DNN），其延伸了 Liu 等人（2015）所提出的模型，并包含一个预先训练的双向变形器语言模型（BERT）。MT-DNN 在 10 个 NLU 任务中实现了新的最先进结果，并提高了 GLUE 基准至 82.7％（2.2％的绝对改进），其代表着领先水平。同时，我们还展示了 MT-DNN 所学习到的表征，可以用较少的数据实现领域适应，比预先训练的 BERT 表征更加优秀。

Abstract

In this paper, we present a multi-task deep neural network (MT-DNN) for learning representations across multiple natural language understanding (NLU) tasks. MT-DNN not only leverages large amounts of cross-task data, but also benefits from a regularization effect that leads to more gen

multi-task deep neural network nlu tasks bert glue benchmark domain adaptation

发现论文，激发创造

自然语言理解的多任务深度神经网络 Microsoft 工具包

MT-DNN 是一种基于 PyTorch 和 Transformers 的自然语言理解工具包，支持深度学习模型的个性化训练，使用多种目标和文本编码器，并具有鲁棒性和可迁移性的多任务学习方法，支持多任务知识蒸馏。MT-DNN 已在一系列 NLU 应用中展示了其效果。

Feb, 2020

通过知识蒸馏提高用于自然语言理解的多任务深度神经网络

本文使用知识蒸馏方法对多任务深度神经网络进行优化，提供了解决集成大型神经网络问题的方法，并在 GLUE 基准测试中取得了显著的成果。

Apr, 2019

2020 年代自然语言处理的多任务学习：我们将走向何方？

本文主要综述了自然语言处理领域中最近的多任务学习 (MTL) 的研究进展，重点关注深度学习、迁移学习和预训练等相关方向的最新成果及所面临的挑战。

Jul, 2020

自然语言处理中的多任务学习：概述

本文综述了多任务学习在自然语言处理领域的应用。在介绍多任务学习的架构和优化方法后，着重讨论了在多个自然语言处理任务上的表现，最后探讨了相关研究方向。

Sep, 2021

多语言神经机器翻译的多任务学习

提出了一种基于多任务学习的框架，通过对单语数据的两个去噪任务和双语数据的翻译任务联合训练模型，显著提高了多语言 NMT 系统的翻译质量，并在零样本学习的情况下证明了该方法的有效性。

Oct, 2020

深度神经网络中的多任务学习概述

本文概述了多任务学习在深度神经网络中的应用，介绍了常见的两种方法，并讨论了最新的进展，旨在帮助机器学习从业者理解多任务学习的原理并提供选择辅助任务的指南。

Jun, 2017

多种神经机器翻译的统一模型学习

本文提出了一个通用的深度神经机器翻译模型， Unified Model Learning for NMT (UMLNMT)，它能够在多种翻译任务中实现智能的即时翻译，相较于基于具体数据集训练的模型，该模型的性能有了显著的提升，部署成本也大大降低，并且在生成多样化、高质量的翻译方面表现优异。此外，作者也提供了一个关于名言警句的中英文句子翻译数据集。

May, 2023

一种灵活的 BERT 多任务模型服务

本文提出一种基于 BERT 的多任务框架，采用部分微调，单任务模型知识蒸馏和模型压缩技术，使得各个子任务的共享部分得以共用，从而实现了低成本、高性能的实时任务处理。该框架在小米智能语音助手中得到了应用，整个系统处理成本降低了 86%。

Jul, 2021

深度神经网络中识别有益的多任务学习任务关系

本文阐述了多任务深度神经网络在 NLP 领域中的应用和优势，并探究了其在不同任务相关性下提高 NLP 性能的条件和作用。

Feb, 2017

有条件自适应多任务学习：减少参数和数据来提高自然语言处理的迁移学习能力

通过使用新的 Transformer 架构，包括一种新的条件注意机制以及一组任务条件模块，旨在促进权重共享，我们实现了更有效的参数共享，并通过保持预训练模型的一半权重来缓解遗忘。同时，我们使用了新的多任务数据采样策略来减少任务之间数据不平衡的负面影响。与其他 BERT Large 方法在 GLUE 上相比，我们的八任务模型超过了其他 Adapter 方法 2.8％，而我们的 24 任务模型在使用 MTL 和单任务微调的模型上表现优异。我们还展示了我们的单个多任务模型方法的较大变体在 26 个 NLP 任务中竞争，并在一些测试和开发集上取得了最先进的结果。

Sep, 2020