Mar, 2023

动态存储量化用于高效的 Transformer 训练

TL;DR本文提出一种新颖的动态存储量化策略,Dynamic Stashing Quantization(DSQ),旨在减少内存操作,并享受低精度训练的其他好处,比如减少运算成本,通过在两个翻译任务和三个分类任务上的研究表明,DSQ 在 IWSLT17 上将算术操作的数量降低了 20.95 倍,并将 DRAM 操作数量降低了 2.55 倍,这为大语言模型在设备学习中的部署提供了解决方案。