Nov, 2019
ZEN:基于N-gram表示增强的中文文本预训练编码器
ZEN: Pre-training Chinese Text Encoder Enhanced by N-gram
Representations
TL;DR本篇论文提出了基于BERT的中文文本编码器ZEN,使用N-gram表示法考虑不同字符组合,明确预训练并在字符编码器(BERT)的细调中进行单词或短语分界处理,使用较少资源比其他已发布的编码器在大部分任务上获得了最先进的表现,同时在小语料库上进行ZEN的训练,也可以获得合理的性能并且可以应用于限定数据的场景。