ZEN 2.0: N-Gram 增强文本编码器的继续训练和适应
本篇论文提出了基于 BERT 的中文文本编码器 ZEN,使用 N-gram 表示法考虑不同字符组合,明确预训练并在字符编码器 (BERT) 的细调中进行单词或短语分界处理,使用较少资源比其他已发布的编码器在大部分任务上获得了最先进的表现,同时在小语料库上进行 ZEN 的训练,也可以获得合理的性能并且可以应用于限定数据的场景。
Nov, 2019
本文旨在探讨通过预训练句子编码器加语言建模和相关无监督任务,再加上富数据的有监督任务,如自然语言推断等方式进一步训练,可显著提高 GLUE 基准测试性能并降低随机重启的变异性,并证明该方法特别适用于数据受限制的条件下。
Nov, 2018
本文提出了一种无需人工标注的数据集构建方法,使用双语文本语料来 fine-tune Transformer 语言模型,并加入一个循环池层构建出有效的特定语种句子编码器,该方法在单张图形卡上使用不到一天时间训练,在波兰语的八个语言任务上实现了高性能,超越了最好的多语言句子编码器。
Jul, 2022
本文研究了现有的 seq2seq 预训练模型中存在的问题,提出了一种基于编码器自监督学习的预训练策略 E2S2,并通过在多个自然语言理解和生成任务中的实验证明了其可行性及有效性。
May, 2022
本研究提出了一种新的改进 Transformer 模型的方法,使用了文本序列中的离散潜在表示构造 n-gram,并应用于语言建模和文本分类中,经实验证明性能优于传统的 Transformer 模型和 Primer,该模型已在 Jax 中开源以便复现。
Jul, 2022
本文提出了一种基于对比学习的文本编码器,利用 60MB 的任务内文本数据进行预训练,相较于利用 160GB 的任务外文本进行预训练的 RoBERTa 模型,在预训练效率、数据和计算资源利用率、以及算法公正性方面有了显著提高。
Oct, 2020
提出一种名为 ERNIE 2.0 的持续预训练框架,通过不断的多任务学习构建和学习预训练任务,以从训练语料库中提取词汇、句法和语义信息。实验结果表明,在包括 GLUE 基准测试中的 16 个任务(包括英文任务和中文中的几个常见任务)中,ERNIE 2.0 的表现优于 BERT 和 XLNet。已经在 https://github.com/PaddlePaddle/ERNIE 发布了源代码和预训练模型。
Jul, 2019
提出了一种名为 TextGNN 模型的文本编码器,结合了用户历史行为中的图形信息,自然地扩展了强的双塔结构编码器,可以在低延迟环境中使用,同时在离线和在线的实验中都取得了显著的性能提升。
Jan, 2021
提出了一种统一的框架 ERNIE 3.0,用于预训练大规模知识增强模型,利用自回归网络和自编码网络相结合的方法来让训练好的模型适用于自然语言理解和生成任务,结果表明,该模型在 54 个中文 NLP 任务上优于现有技术,英文版本超越人类表现 + 0.8%。
Jul, 2021
本文针对预训练语音编码器中的表示空间进行了研究,并通过对比自监督学习构建正对,以实现对表示空间的改进,进而在低资源环境下提高了语音处理任务的收敛速度和表现。
Oct, 2022