Nov, 2024
当精度遇上位置:BFloat16在长上下文训练中打破RoPE
When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context
Training
TL;DR本研究解决了在长上下文训练中,BFloat16格式与Rotary Positional Embedding(RoPE)结合时出现的数值问题,导致位置编码偏差的问题。通过开发AnchorAttention方法,该方法缓解了BFloat16带来的数值问题,提升了长上下文处理能力,并将训练时间缩短了50%以上,同时保持了原有大型语言模型的任务能力。