BriefGPT.xyz
Ask
alpha
关键词
learning rate scaling
搜索结果 - 1
面向卷积神经网络的统一 INT8 训练
本文提出了一个统一的 INT8 训练框架,基于四个梯度特征和两个稳定性原则,以及两种普适性技术,包括方向敏感梯度裁剪和偏移抵消学习率缩放,可以支持各种网络和任务,并在不使用太多优化方法的情况下将训练时间降低了 22%。
PDF
5 years ago
Prev
Next