Jun, 2020

DeBERTa: 解码增强的 BERT(具有分离的注意力机制)

TL;DR本文提出一种新的模型结构 DeBERTa,采用解缩融合模块和增强的掩膜解码器改进 BERT 和 RoBERTa 模型,在模型预训练和下游自然语言处理任务中显著提高效率和性能。它采用局部结构,实现了两种训练方法的密集耦合,不仅在 NLU 和 NLG 下游任务中取得明显好成绩,在 SuperGLUE 基准测试中也超过人类的得分。