BriefGPT.xyz
大模型
Ask
alpha
关键词
dynamic stashing quantization
搜索结果 - 1
动态存储量化用于高效的 Transformer 训练
本文提出一种新颖的动态存储量化策略,Dynamic Stashing Quantization(DSQ),旨在减少内存操作,并享受低精度训练的其他好处,比如减少运算成本,通过在两个翻译任务和三个分类任务上的研究表明,DSQ 在 IWSLT1
→
PDF
a year ago
Prev
Next