Oct, 2023

相对位置的功能内插改进长上下文 Transformer

TL;DR使用功能性相对位置编码与渐进插值方法 (FIRE) 对 Transformers 进行训练,在处理更长的上下文时具有更好的泛化性能。