May, 2024

自定义梯度估计器乃掩饰过后的直通式估计器

TL;DR当学习速率足够小的时候,我们通过实验证明了一类大规模的权重梯度估计器等价于直通估计器 (STE),无需改变权重初始化和学习速率,可用于处理量化感知训练中的梯度问题。