May, 2024

从FP8回到FP减少精度对LLM训练稳定性的效果量化

TL;DR降低精度的浮点表示在大型语言模型(LLM)训练中的稳定性及经济性的调查和分析。