May, 2024

通过分解位置向量探索大型语言模型的上下文窗口

TL;DR通过分析位置向量对注意力的形成和影响,我们设计了两种无需训练的上下文窗口扩展方法,即位置向量替换和注意力窗口扩展。实验结果表明,我们的方法可以有效地扩展上下文窗口的长度。