EMNLPNov, 2019
基于分块的自注意力机制实现长文本理解
Blockwise Self-Attention for Long Document Understanding
Jiezhong Qiu, Hao Ma, Omer Levy, Scott Wen-tau Yih, Sinong Wang...
TL;DRBlockBERT 为一个高效的 BERT 模型,引入了稀疏块结构,以更好的建模长距离依赖关系,在语言模型预训练和基准问答数据集上进行了实验。与 RoBERTa 模型相比,BlockBERT 可以节省大约 27.8% 的推理时间,并具有可比甚至更好的预测准确性。