ACLOct, 2020

DA-Transformer:距离感知 Transformer

TL;DR本文提出了一种具备距离感知能力的 DA-Transformer 模型来捕捉输入 token 之间的真实距离信息,并将其用于自注意力计算中,实验证明该模型在五个基准数据集上的表现明显好于 Transformer 模型及其多个变体。