EMNLPSep, 2021

Skim-Attention: 通过文档布局学习集中注意力

TL;DR本文提出了 “Skim-Attention” 的新注意力机制,只关注文档中单词的二维位置,实现了更高效的计算和更低的困惑度,可与远程 Transformer 结合处理长文档,作为面向任何预训练语言模型的掩码使用,以提高它们的性能同时限制注意力,同时展示了文档结构表征的出现。