Apr, 2021

RoFormer: 带旋转位置嵌入的增强 Transformer

TL;DR本篇论文研究了在语言模型中如何整合位置信息,并提出了一种名为 RoPE 的方法,它可以将位置信息编码为旋转矩阵,并同时将显式的相对位置依赖性结合到自注意力公式中。实验结果表明,RoPE 使 transformer 在处理长文本分类问题时表现出优越的性能。