Jun, 2024

理解长上下文LLMs的RoPE扩展:一个注意力视角

TL;DR以关注LLMs为研究热点,本文从注意力角度对RoPE拓展进行了详细研究,通过实验证明:1)保持与预训练长度一致的注意力模式可提高拓展性能;2)较大的注意力不确定性导致检索错误;3)在RoPE拓展中使用更长的预训练长度可以降低注意力不确定性并显著提升拓展性能。