May, 2023

面向内存节省的语言模型自适应的全赢行列抽样

TL;DR该研究提出了一种基于 WTA-CRS 估计器的模型参数量较少、内存占用较少的 transformers 模型训练优化方法,该方法在保证模型精度的情况下,可以替代传统优化方法实现更快更稳定的训练。