Dec, 2023

Transformer 长度外推:以位置编码为视角的调查

TL;DR该研究论文对基于 Transformer 的预训练语言模型和长度外推问题进行了系统性的回顾,聚焦于可外推位置编码方法,旨在帮助读者深入理解已有方法并为未来研究提供启示。