Oct, 2023
相对位置的功能内插改进长上下文 Transformer
Functional Interpolation for Relative Positions Improves Long Context Transformers
Shanda Li, Chong You, Guru Guruganesh, Joshua Ainslie, Santiago Ontanon...
TL;DR使用功能性相对位置编码与渐进插值方法 (FIRE) 对 Transformers 进行训练,在处理更长的上下文时具有更好的泛化性能。