自然语言理解的多任务深度神经网络 Microsoft 工具包
本文介绍了一种用于跨多个自然语言理解任务的表示学习的多任务深度神经网络(MT-DNN),其延伸了 Liu 等人(2015)所提出的模型,并包含一个预先训练的双向变形器语言模型(BERT)。MT-DNN 在 10 个 NLU 任务中实现了新的最先进结果,并提高了 GLUE 基准至 82.7%(2.2%的绝对改进),其代表着领先水平。同时,我们还展示了 MT-DNN 所学习到的表征,可以用较少的数据实现领域适应,比预先训练的 BERT 表征更加优秀。
Jan, 2019
本文使用知识蒸馏方法对多任务深度神经网络进行优化,提供了解决集成大型神经网络问题的方法,并在 GLUE 基准测试中取得了显著的成果。
Apr, 2019
本文概述了多任务学习在深度神经网络中的应用,介绍了常见的两种方法,并讨论了最新的进展,旨在帮助机器学习从业者理解多任务学习的原理并提供选择辅助任务的指南。
Jun, 2017
本文主要综述了自然语言处理领域中最近的多任务学习 (MTL) 的研究进展,重点关注深度学习、迁移学习和预训练等相关方向的最新成果及所面临的挑战。
Jul, 2020
我们开发了一种称为 MulT 的端到端多任务学习 Transformer 框架,用于同时学习多个高级视觉任务,包括深度估计、语义分割、重着色、表面法线估计、2D 关键点检测和边缘检测。我们的框架基于 Swin transformer 模型,利用任务特定的基于 Transformer 的解码器头为每个视觉任务进行预测,并采用共享的注意机制模型来建模跨任务的依赖关系。我们在多个多任务基准测试中评估了我们的模型,显示出我们的 MulT 框架优于最先进的多任务卷积神经网络模型和所有各自的单任务 Transformer 模型。我们的实验进一步突出了共享所有任务的注意力的优点,并证明我们的 MulT 模型具有鲁棒性和很好的泛化性能。
May, 2022
我们提出了一种名为 UniT 的统一 Transformer 模型,该模型可以同时学习不同领域中最重要的任务,从目标检测到自然语言理解和多模态推理,在编码器 - 解码器架构的基础上,通过编码器对每个输入模态进行编码,并使用共享解码器对编码的输入表示进行每个任务的预测,然后是特定于任务的输出头。我们的实验证明,在 8 个数据集上联合学习 7 个任务,使用比以前的工作更少的参数,在每个任务上都获得了强大的性能。
Feb, 2021
本文提出了一个通用的深度神经机器翻译模型, Unified Model Learning for NMT (UMLNMT),它能够在多种翻译任务中实现智能的即时翻译,相较于基于具体数据集训练的模型,该模型的性能有了显著的提升,部署成本也大大降低,并且在生成多样化、高质量的翻译方面表现优异。此外,作者也提供了一个关于名言警句的中英文句子翻译数据集。
May, 2023
本研究采用深度转移递归神经网络的模型构架方法,增加了模型的深度,通过多次非线性转化的隐藏状态转移以及线性变换路径的设计,有效解决了梯度消失的问题,显著提高了翻译质量,其中 DTMT 在中文 - 英文翻译任务中的 BLEU 分数比 Transformer 模型提高了 2.09 分,并在 WMT14 英德、英法翻译任务上显示出优异的质量。
Dec, 2018
本文介绍一个基于 Transformer 库的神经机器翻译(NMT)工具包 Yet Another Neural Machine Translation Toolkit(YANMTT),该工具包允许用户进行预训练、迁移学习、微调和可视化与分析,以及其他高级功能,例如文本多源 NMT 和压缩等。
Aug, 2021