Nov, 2024

当精度遇到位置:BFloat16在长上下文训练中打破RoPE

TL;DR本研究针对使用BFloat16格式的Rotary Positional Embedding (RoPE)在长上下文训练中存在的数值问题进行了分析。这篇论文提出了AnchorAttention,一种新的注意力机制,它通过将第一个token视为共享锚点,解决了BFloat16的精度限制问题,提高了长上下文处理能力,并减少了超过50%的训练时间。实验表明,AnchorAttention可以显著改进长上下文性能,同时保持大语言模型在常规任务中的能力。