Jan, 2020

用于深度神经网络低精度训练的平移和压缩 8 位浮点格式

TL;DR本研究提出了一种新的方法 (S2FP8) ,使用 8 位浮点(FP8)数来训练深度神经网络,可以在训练时实现更大的有效内存和增加计算速度,并且在 ResNet-50、Transformer 和 NCF 等模型中表现良好,无需微调损失缩放参数或使某些层在单精度中运行;同时,引入了一些可学习的 DNN 张量统计上的偏移和挤压参数,以优化 8 位张量的使用范围,从而减少量化带来的信息损失。