Nov, 2019

ZEN:基于 N-gram 表示增强的中文文本预训练编码器

TL;DR本篇论文提出了基于 BERT 的中文文本编码器 ZEN,使用 N-gram 表示法考虑不同字符组合,明确预训练并在字符编码器 (BERT) 的细调中进行单词或短语分界处理,使用较少资源比其他已发布的编码器在大部分任务上获得了最先进的表现,同时在小语料库上进行 ZEN 的训练,也可以获得合理的性能并且可以应用于限定数据的场景。