May, 2022

你的 Transformer 可能没有你期望的那么强大

TL;DR本文针对基于相对位置编码的 Transformer 模型展开数学分析,证明了其并不是一种完全可逼近连续的序列转序列函数的神经网络,但是提出了满足一定条件的新型注意力机制 URPE 并在多个任务上进行了实验,证明了其在参数效率和性能上均超过了其他模型。