自然语言理解与生成的统一语言模型预训练

May, 2019

自然语言理解与生成的统一语言模型预训练

Unified Language Model Pre-training for Natural Language Understanding and Generation

Li Dong, Nan Yang, Wenhui Wang, Furu Wei, Xiaodong Liu...

TL;DR本文介绍了一种新的统一预训练语言模型 (UniLM)，该模型可用于自然语言理解和生成任务，使用了三种类型的语言建模任务进行预训练，采用共享 Transformer 网络和特定的自我注意掩码来控制预测条件的上下文，其在自然语言生成方面的表现优于 BERT，最终达到了五种自然语言生成数据集的最新最优成果。

Abstract

This paper presents a new unified pre-trained language model (UniLM) that can be fine-tuned for both natural language understanding and generation tasks. The model is pre-trained using three types of language mod

unified pre-trained language model transformer network natural language understanding natural language generation state-of-the-art

发现论文，激发创造

UniVL: 用于多模态理解和生成的统一视频与语言预训练模型

本论文提出了 UniVL：一种统一的视频和语言预训练模型，旨在为多模态理解和生成任务提供强大的视频和文本表示，并通过五个目标以及分阶段和增强视频表示的预训练策略来训练各组件，最终在五个下游任务上实现了最新的成果。

Feb, 2020

利用语言模型生成训练数据：走向零样本语言理解

本文提出了一种简单的方法，使用预训练语言模型 (Pretrained language models) 进行全零样本学习 (zero-shot learning) 自然语言理解任务 (NLU tasks)。该方法使用单向和双向 PLMs 生成和训练数据，其中训练数据是使用提示 (prompts) 引导的类别条件文本。使用这种方法，在 GLUE 数据集的七个分类任务中取得了强劲的表现 (例如在 MNLI-m/mm 上的 72.3/73.8，以及在 SST-2 上的 92.8)，相对于零样本提示方法，甚至实现了与使用每类 32 个训练样本的强有力的少样本方法相当的结果。同时，采用了标签平滑和时间模型的融合技术以达到更好的泛化和稳定性。

Feb, 2022

UL2: 统一语言学习范式

提出一个统一框架的预训练模型，通过 Mixture-of-Denoisers 目标函数实现不同预训练目标的整合，将不同的预训练范例结合在一起，对于多个不同领域的数据集都具有普适性，并在规模为 20B 参数下的 50 个 NLP 任务上取得了最先进的表现。

May, 2022

UniT：统一变形器进行多模态多任务学习

我们提出了一种名为 UniT 的统一 Transformer 模型，该模型可以同时学习不同领域中最重要的任务，从目标检测到自然语言理解和多模态推理，在编码器 - 解码器架构的基础上，通过编码器对每个输入模态进行编码，并使用共享解码器对编码的输入表示进行每个任务的预测，然后是特定于任务的输出头。我们的实验证明，在 8 个数据集上联合学习 7 个任务，使用比以前的工作更少的参数，在每个任务上都获得了强大的性能。

Feb, 2021

Few-shot 自然语言理解统一 BERT

该研究提出了 UBERT 模型，基于 BERT 框架，可以通过双向仿射网络对不同自然语言理解任务的训练对象进行普遍建模，并通过模型得分来实现各种分类和提取结构的通用、跨任务的语义理解。在 2022 年 AIWIN - 世界人工智能创新大赛中国保险小样本多任务跟踪中获得一等奖，并实现了广泛的信息提取和语言推理任务的统一。

Jun, 2022

通用语言模型微调用于文本分类

本文提出了通用语言模型微调（ULMFiT）方法，通过预训练模型来减小 NLP 中针对特定任务和重新训练的限制，可应用于 NLP 中的任何任务，结果显示该方法在 6 个文本分类任务中的表现显著优于现有技术，且只需 100 个标记实例即可达到基于 100 倍数据重新训练的性能，同时本文公开了预训练模型和代码。

Jan, 2018

多种神经机器翻译的统一模型学习

本文提出了一个通用的深度神经机器翻译模型， Unified Model Learning for NMT (UMLNMT)，它能够在多种翻译任务中实现智能的即时翻译，相较于基于具体数据集训练的模型，该模型的性能有了显著的提升，部署成本也大大降低，并且在生成多样化、高质量的翻译方面表现优异。此外，作者也提供了一个关于名言警句的中英文句子翻译数据集。

May, 2023

BERT: 深度双向变换器的预训练用于语言理解

介绍了一种新的语言表示模型 BERT，可以通过预训练深度双向表示生成模型从未标记的文本中学习，通过微调可用于广泛的任务，包括自然语言处理。

Oct, 2018

SLAM: 通过语音 - 文本联合预训练实现语音和语言建模的统一编码器

将无监督预训练应用于语言理解，在语音和文本之间建立单一模型，包括 BERT 目标和 w2v-BERT 目标以及其他预训练技术改进，同时在 GLUE 任务中也取得了不俗的竞争力。

Oct, 2021

跨语言语言模型预训练

本文提出了两种跨语言学习模型的方法 (XLMs): 一种是仅依赖于单语数据的无监督方式，另一种是利用新的跨语言模型目标并使用平行数据的有监督方式。通过这些方法在跨语言分类、无监督和有监督机器翻译中取得了最先进的结果。

Jan, 2019