May, 2024

闪光关注是否稳定?

TL;DR利用数值偏差原则性地分析了大规模机器学习模型训练中的稳定性问题,以 Flash Attention 优化为研究对象,发现其数值偏差比低精度训练要小 2-5 倍。