ZEN 2.0: N-Gram 增强文本编码器的继续训练和适应

May, 2021

ZEN 2.0: N-Gram 增强文本编码器的继续训练和适应

ZEN 2.0: Continue Training and Adaption for N-gram Enhanced Text Encoders

Yan Song, Tong Zhang, Yonggang Wang, Kai-Fu Lee

TL;DR本研究提出了使用大规模数据和先进技术针对 n-gram 的预训练编码器，并成功将其拓展到不同语言和领域中，得到了在多项 NLP 任务中表现优异的结果。

Abstract

Pre-trained text encoders have drawn sustaining attention in natural language processing (NLP) and shown their capability in obtaining promising results in different tasks. Recent studies illustrated that external self-supervised signals (or knowledge extracted by unsupervised learning, such as n-grams) are beneficial to provide useful semantic evidence for

pre-trained encoders self-supervised signals n-gram-enhanced multi-lingual nlp tasks

发现论文，激发创造

ZEN：基于 N-gram 表示增强的中文文本预训练编码器

本篇论文提出了基于 BERT 的中文文本编码器 ZEN，使用 N-gram 表示法考虑不同字符组合，明确预训练并在字符编码器 (BERT) 的细调中进行单词或短语分界处理，使用较少资源比其他已发布的编码器在大部分任务上获得了最先进的表现，同时在小语料库上进行 ZEN 的训练，也可以获得合理的性能并且可以应用于限定数据的场景。

Nov, 2019

STILTS 上的句子编码器：对中间标签数据任务的补充训练

本文旨在探讨通过预训练句子编码器加语言建模和相关无监督任务，再加上富数据的有监督任务，如自然语言推断等方式进一步训练，可显著提高 GLUE 基准测试性能并降低随机重启的变异性，并证明该方法特别适用于数据受限制的条件下。

Nov, 2018

从自动挖掘的同义句训练有效的神经句子编码器

本文提出了一种无需人工标注的数据集构建方法，使用双语文本语料来 fine-tune Transformer 语言模型，并加入一个循环池层构建出有效的特定语种句子编码器，该方法在单张图形卡上使用不到一天时间训练，在波兰语的八个语言任务上实现了高性能，超越了最好的多语言句子编码器。

Jul, 2022

编码增强的序列到序列预训练模型用于语言理解与生成

本文研究了现有的 seq2seq 预训练模型中存在的问题，提出了一种基于编码器自监督学习的预训练策略 E2S2，并通过在多个自然语言理解和生成任务中的实验证明了其可行性及有效性。

May, 2022

N-Grammer: 使用潜在 n-gram 扩充 Transformer

本研究提出了一种新的改进 Transformer 模型的方法，使用了文本序列中的离散潜在表示构造 n-gram，并应用于语言建模和文本分类中，经实验证明性能优于传统的 Transformer 模型和 Primer，该模型已在 Jax 中开源以便复现。

Jul, 2022

对比自监督学习的高效数据预训练

本文提出了一种基于对比学习的文本编码器，利用 60MB 的任务内文本数据进行预训练，相较于利用 160GB 的任务外文本进行预训练的 RoBERTa 模型，在预训练效率、数据和计算资源利用率、以及算法公正性方面有了显著提高。

Oct, 2020

ERNIE 2.0：面向语言理解的持续预训练框架

提出一种名为 ERNIE 2.0 的持续预训练框架，通过不断的多任务学习构建和学习预训练任务，以从训练语料库中提取词汇、句法和语义信息。实验结果表明，在包括 GLUE 基准测试中的 16 个任务（包括英文任务和中文中的几个常见任务）中，ERNIE 2.0 的表现优于 BERT 和 XLNet。已经在 https://github.com/PaddlePaddle/ERNIE 发布了源代码和预训练模型。

Jul, 2019

TextGNN: 基于图神经网络的赞助搜索文本编码器优化

提出了一种名为 TextGNN 模型的文本编码器，结合了用户历史行为中的图形信息，自然地扩展了强的双塔结构编码器，可以在低延迟环境中使用，同时在离线和在线的实验中都取得了显著的性能提升。

Jan, 2021

ERNIE 3.0：大规模知识增强的语言理解与生成预训练

提出了一种统一的框架 ERNIE 3.0，用于预训练大规模知识增强模型，利用自回归网络和自编码网络相结合的方法来让训练好的模型适用于自然语言理解和生成任务，结果表明，该模型在 54 个中文 NLP 任务上优于现有技术，英文版本超越人类表现 + 0.8%。

Jul, 2021

预训练语音编码器的自监督重连：在语音处理中以更少标签更快微调

本文针对预训练语音编码器中的表示空间进行了研究，并通过对比自监督学习构建正对，以实现对表示空间的改进，进而在低资源环境下提高了语音处理任务的收敛速度和表现。

Oct, 2022