May, 2021

预训练通用语言表示

TL;DR本研究提出了一个通用的语言表示学习方法MiSAD,通过利用大型未标记语料库中提取的有意义的n-gram,实现对不同层次语言单位或具有相当不同长度的文本的嵌入形式,从而使手头的多个语言层次的信息能够更好地统一处理,并且在GLUE基准和问答数据集上显著提高了下游任务的性能以及在不同语言层次上实现了最高准确率。