Mar, 2019

基于 “洞穴填充” 的自注意力网络预训练

TL;DR本研究提出了一种新的预训练双向 Transformer 模型的方法,通过解决一种词重建任务来提高语言理解问题的性能,实验表明,在 GLUE 和 NER 以及组分分析基准测试上获得了大幅度的性能提高,模型的各种因素对于有效的预训练起到了积极的贡献。