ACLSep, 2020

Cluster-Former: 基于聚类的稀疏变形器,用于长距离依赖编码

TL;DR本研究提出了一种基于聚类的稀疏 Transformer 模型,它由滑动窗口层和 Cluster-Former 层组成,能够跨越窗口编码本地序列信息和全局上下文信息,这种新的设计在回答具有长程依赖性的问题时尤其有益,实验结果表明其在多项 QA 基准测试中实现了最先进的性能。