May, 2023
面向内存节省的语言模型自适应的全赢行列抽样
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model
Zirui Liu, Guanchu Wang, Shaochen Zhong, Zhaozhuo Xu, Daochen Zha...
TL;DR该研究提出了一种基于 WTA-CRS 估计器的模型参数量较少、内存占用较少的 transformers 模型训练优化方法,该方法在保证模型精度的情况下,可以替代传统优化方法实现更快更稳定的训练。