Aug, 2020

使用基于跨度的动态卷积来改进 BERT 的 ConvBERT

TL;DR本文提出一种用于自然语言理解中的深度神经网络模型 ConvBERT,用于替换 BERT 中占用计算和存储的全局自我注意力块,以实现更高效的全局和局部语境学习,经实验证明,在各种下游任务中,ConvBERT 均能显著优于 BERT 及其变体,且训练成本更低。