ICLRMar, 2019

理解直通估计在训练激活量化神经网络中的作用

TL;DR通过学习使用 STE 实现反向传播算法中的梯度下降,通过正确选择 STE 并验证其梯度与总体梯度正相关,进而解决了搜索负方向最小化训练损失的问题。研究还比较了不同 STE 算法对 CIFAR-10 数据集的训练结果和稳定性。