Dec, 2023

降低语言模型低精度微调中的异常激活

TL;DR低精度微调模型在大规模模型部署中变得日益重要,然而,异常值激活对其性能有负面影响。本文研究了在语言模型的低精度整数微调中缓解异常值激活的技术,提出了一种新颖方法,使用8位整数而不是浮点数表示异常值激活。通过理论分析和实验支持,证明了该方法在提高低精度微调语言模型的鲁棒性和性能方面的有效性。