ACLJul, 2021

H-Transformer-1D: 序列快速一维分层注意力

TL;DR本研究提出了一种高效的基于矩阵结构的层次注意力方法,并证明了这种方法在自然语言和视觉任务中捕捉层次结构的归纳偏差是有效的,相比于其他次二次方提议在 Long Range Arena 基准测试上平均提高了 6 个百分点,在 One-Billion Word 数据集上也取得了新的 SOTA 测试困惑度。