EMNLPNov, 2019

基于分块的自注意力机制实现长文本理解

TL;DRBlockBERT 为一个高效的 BERT 模型,引入了稀疏块结构,以更好的建模长距离依赖关系,在语言模型预训练和基准问答数据集上进行了实验。与 RoBERTa 模型相比,BlockBERT 可以节省大约 27.8% 的推理时间,并具有可比甚至更好的预测准确性。