ACLDec, 2021

简单的本地关注机制在长时序任务中保持竞争力

TL;DR本研究通过大规模的控制实验,分析了不同的长距离注意力机制,研究发现,即使使用相同的预训练数据集与微调过程,采用简单的局部窗口注意力机制仍然能够胜任大部分任务,而且采用分离的局部注意力机制可以构建一个更为简单和高效的长文档问答模型,达到与 Longformer 半数的预训练计算相匹配的性能。