自定义梯度估计器乃掩饰过后的直通式估计器

May, 2024

自定义梯度估计器乃掩饰过后的直通式估计器

Custom Gradient Estimators are Straight-Through Estimators in Disguise

Matt Schoenbauer, Daniele Moro, Lukasz Lew, Andrew Howard

TL;DR当学习速率足够小的时候，我们通过实验证明了一类大规模的权重梯度估计器等价于直通估计器 (STE)，无需改变权重初始化和学习速率，可用于处理量化感知训练中的梯度问题。

Abstract

quantization-aware training comes with a fundamental challenge: the derivative of quantization functions such as rounding are zero almost everywhere and nonexistent elsewhere. Various →

quantization-aware training derivative differentiable approximations gradient estimators adaptive learning rate algorithms

发现论文，激发创造

理解直通估计在训练激活量化神经网络中的作用

通过学习使用 STE 实现反向传播算法中的梯度下降，通过正确选择 STE 并验证其梯度与总体梯度正相关，进而解决了搜索负方向最小化训练损失的问题。研究还比较了不同 STE 算法对 CIFAR-10 数据集的训练结果和稳定性。

Mar, 2019

无 STE 学习低精度神经网络

该论文提出了一种 alpha-blending 替代 Straight-Through Estimator 的方法用于量化神经网络，该方法逐步将模型从全精度转化为低精度并在 CIFAR10 和 ImageNet 数据集上表现出更好的结果。

Mar, 2019

估计器遇上平衡视角：用于训练二值神经网络的修正直通估计器

通过平衡估计误差和梯度稳定性，我们提出了修正的直通估计器（ReSTE），用于神经网络压缩，其比其他估计器更合理且能灵活地平衡估计误差和梯度稳定性。实验结果表明，ReSTE 在 CIFAR-10 和 ImageNet 数据集上表现出色，超越了其他现有方法，而不需要任何辅助模块或损失函数。

Aug, 2023

梯度下降量化 ReLU 网络特征

研究深度神经网络在过度参数化的情况下训练的现象，发现在网络具有小初值和学习率的假设下，权重向量趋向于集中在少量由数据决定的方向，这使得对于给定的输入数据，网络大小独立，只能得到有限数量的函数

Mar, 2018

隐式模型的梯度估计器

该论文提出了斯坦梯度估计器，通过直接估计隐式定义分布的评分函数，消除了许多学习隐式模型的近似。该方法的有效性通过元学习和熵正则化 GAN 的实例得到了证明。

May, 2017

使用逐元素梯度缩放的网络量化

本文提出了一种新的基于 element-wise gradient scaling 的量化网络的训练方法，该方法可以更好地解决量化误差问题，提高在有限硬件资源情况下深度神经网络的稳定性和准确性。

Apr, 2021

解决向量量化网络中优化挑战的直通估计器问题

本文研究了在使用向量量化直通估计训练神经网络时所遇到的挑战，通过引入仿射重新参数化的过程和交替优化方法来改进模型性能。对多种模型结构和任务进行测试，包括 AlexNet，ResNet 和 ViT 以及图像分类和生成建模等领域。

May, 2023

距离感知量化

该论文介绍了一种统一的框架来解决网络量化问题，通过引入一种新型的距离感知量化器 (DAQ), 该方法既解决了梯度匹配问题，也解决了量化差异问题，有效提高了各种位宽下的网络性能。

Aug, 2021

带有偏置但一致的梯度估计的随机梯度下降

本研究针对带图等情景，探讨 Stochastic gradient descent (SGD) 中 consitent estimator 的效用及其相对于 unbiased estimator 的同等收敛性。实验证明，consistent estimator 在 strongly convex, convex, and nonconvex 目标下均表现良好，这一研究有助于进一步提高 SGD 的效率并设计大规模图的高效训练算法。

Jul, 2018

关于学习图像压缩的统一标量量化

基于梯度训练的学习图像压缩中，量化方法的选择对于训练和测试的匹配性和梯度估计的风险存在权衡，本研究提出了一种基于随机均匀退火的方法，通过可调的温度系数来控制权衡，并使用两个巧妙的技巧改进了现有的量化方法，取得了比代表性图像压缩网络上现有方法更好的性能。

Sep, 2023