ERNIE-Gram: 显式 N-Gram Masked 语言模型的预训练用于自然语言理解

ACLOct, 2020

ERNIE-Gram: 显式 N-Gram Masked 语言模型的预训练用于自然语言理解

ERNIE-Gram: Pre-Training with Explicitly N-Gram Masked Language Modeling for Natural Language Understanding

Dongling Xiao, Yu-Kun Li, Han Zhang, Yu Sun, Hao Tian...

TL;DR该论文提出 ERNIE-Gram，一种显式 n-gram 屏蔽方法，可以将粗粒度的语言信息有效地融入预训练中，通过在 19 个后续任务上的实验结果表明，ERNIE-Gram 可以大幅优于先前的预训练模型，也可以与最先进的方法相媲美。

Abstract

coarse-grained linguistic information, such as named entities or phrases, facilitates adequately representation learning in pre-training. Previous works mainly focus on extending the objective of BERT's Masked La

pre-training ernie-gram coarse-grained linguistic information n-gram masking method downstream tasks

发现论文，激发创造

ERNIE 2.0：面向语言理解的持续预训练框架

提出一种名为 ERNIE 2.0 的持续预训练框架，通过不断的多任务学习构建和学习预训练任务，以从训练语料库中提取词汇、句法和语义信息。实验结果表明，在包括 GLUE 基准测试中的 16 个任务（包括英文任务和中文中的几个常见任务）中，ERNIE 2.0 的表现优于 BERT 和 XLNet。已经在 https://github.com/PaddlePaddle/ERNIE 发布了源代码和预训练模型。

Jul, 2019

ERNIE: 知识融合增强的表示学习

ERNIE 是一种新颖的语言表示模型，通过知识集成增强，它设计了基于实体级屏蔽和短语级屏蔽的屏蔽策略，实验结果证明，ERNIE 在自然语言推理、语义相似性、命名实体识别、情感分析和问答等五个中文自然语言处理任务上均取得了新的最佳表现。

Apr, 2019

ERNIE: 增强语言表示与信息实体

本文提出了 ERNIE，使用大规模的文本语料库和知识图谱（KGs）同时训练，利用 KGs 中的外部知识来增强语言表征，实验证明在不同知识驱动任务上 ERNIE 显著提高性能，同时在其他常见 NLP 任务上与 BERT 的性能相当。

May, 2019

ERNIE 3.0：大规模知识增强的语言理解与生成预训练

提出了一种统一的框架 ERNIE 3.0，用于预训练大规模知识增强模型，利用自回归网络和自编码网络相结合的方法来让训练好的模型适用于自然语言理解和生成任务，结果表明，该模型在 54 个中文 NLP 任务上优于现有技术，英文版本超越人类表现 + 0.8%。

Jul, 2021

ERNIE-GEN: 自然语言生成的增强多流程预训练和微调框架

提出了一种增强型的多流序列到序列预训练及微调框架 ERNIE-GEN，用于多种语言生成任务中，实现了比现有预训练方法更高的性能，并且使用更少的预训练数据和参数量。

Jan, 2020

ERNIE-Code: 面向编程语言的跨语言预训练技术（超越英语中心）

本文介绍了一种面向多语言自然语言和编程语言的语言模型 ERNIE-Code，提供了通用跨语言预训练的两种方法，取得了很好的性能表现，包括零样本提示的跨语言代码摘要和文本翻译。

Dec, 2022

ERNIE 3.0 Titan：探索基于知识增强的大规模预训练技术在语言理解和生成方面的应用

该研究提出了 ERNIE 3.0 Titan 模型，它是目前最大的中文密集预训练模型，其使用预训练语言模型取得了在 68 个自然语言处理任务上的最佳性能。

Dec, 2021

通过单语语料库对跨语言语义进行对齐，增强多语言表示能力的 ERNIE-M 模型

本研究提出了 ERNIE-M 模型，采用反向翻译技术产生伪平行语料，从而增强跨语言模型的语义建模能力，并经过实验证明，相对现有跨语言模型，ERNIE-M 能够更好地适用于跨语言任务。

Dec, 2020

SemEval-2020 任务 10 中 ERNIE：使用预训练语言模型学习词汇强调选择

ERNIE 团队在 SemEval-2020 的任务 10 中取得第一名，提出了一种利用无监督预训练模型并在任务中进行微调的方法来寻找给定句子中最重要的单词，并证明这种方法可以通过额外的特征工程和数据增强来提高表现。最终他们的模型取得了 0.823 的最高分，在所有指标上位居第一。

Sep, 2020

AMBERT: 一个带有多粒度分词的预训练语言模型

本文提出一种新的预训练语言模型 AMBERT，结合了精细的细粒度和粗粒度的分词方法，取得了比 BERT 更好的性能，特别是在汉语中表现更显著。此外，我们还开发了一种方法，用于提高 AMBERT 推理的效率，其仍然比 BERT 在同样计算成本下表现更好。

Aug, 2020