理解直通估计在训练激活量化神经网络中的作用

ICLRMar, 2019

理解直通估计在训练激活量化神经网络中的作用

Understanding Straight-Through Estimator in Training Activation Quantized Neural Nets

Penghang Yin, Jiancheng Lyu, Shuai Zhang, Stanley Osher, Yingyong Qi...

TL;DR通过学习使用 STE 实现反向传播算法中的梯度下降，通过正确选择 STE 并验证其梯度与总体梯度正相关，进而解决了搜索负方向最小化训练损失的问题。研究还比较了不同 STE 算法对 CIFAR-10 数据集的训练结果和稳定性。

Abstract

Training activation quantized neural networks involves minimizing a piecewise constant function whose gradient vanishes almost everywhere, which is undesirable for the standard back-propagation or chain rule. An empirical way around this issue is to use a →

activation quantized neural networks straight-through estimator coarse gradient descent algorithm binarized relu activation local minima

发现论文，激发创造

无 STE 学习低精度神经网络

该论文提出了一种 alpha-blending 替代 Straight-Through Estimator 的方法用于量化神经网络，该方法逐步将模型从全精度转化为低精度并在 CIFAR10 和 ImageNet 数据集上表现出更好的结果。

Mar, 2019

估计器遇上平衡视角：用于训练二值神经网络的修正直通估计器

通过平衡估计误差和梯度稳定性，我们提出了修正的直通估计器（ReSTE），用于神经网络压缩，其比其他估计器更合理且能灵活地平衡估计误差和梯度稳定性。实验结果表明，ReSTE 在 CIFAR-10 和 ImageNet 数据集上表现出色，超越了其他现有方法，而不需要任何辅助模块或损失函数。

Aug, 2023

自定义梯度估计器乃掩饰过后的直通式估计器

当学习速率足够小的时候，我们通过实验证明了一类大规模的权重梯度估计器等价于直通估计器 (STE)，无需改变权重初始化和学习速率，可用于处理量化感知训练中的梯度问题。

May, 2024

解决向量量化网络中优化挑战的直通估计器问题

本文研究了在使用向量量化直通估计训练神经网络时所遇到的挑战，通过引入仿射重新参数化的过程和交替优化方法来改进模型性能。对多种模型结构和任务进行测试，包括 AlexNet，ResNet 和 ViT 以及图像分类和生成建模等领域。

May, 2023

使用逐元素梯度缩放的网络量化

本文提出了一种新的基于 element-wise gradient scaling 的量化网络的训练方法，该方法可以更好地解决量化误差问题，提高在有限硬件资源情况下深度神经网络的稳定性和准确性。

Apr, 2021

通过直通估计器将逻辑约束注入神经网络

将离散逻辑约束注入神经网络学习是神经符号人工智能领域的主要挑战之一。本文发现，直通估算器这一用于训练二进制神经网络的方法可有效应用于将逻辑约束纳入神经网络学习中。我们设计了一种系统的方式将离散逻辑约束表示为一个损失函数；通过梯度下降，利用直通估算器最小化该损失函数可以使得神经网络的权重朝着使二值化输出满足逻辑约束的方向更新。实验结果表明，通过利用 GPU 和批次训练，这种方法比现有的需要进行大量符号计算来计算梯度的神经符号方法具有更好的可扩展性。此外，我们证明了该方法适用于不同类型的神经网络，如多层感知机（MLP）、卷积神经网络（CNN）和图神经网络（GNN），使它们能够通过直接从已知约束中学习来学习了无标签数据或更少标签数据。

Jul, 2023

梯度下降量化 ReLU 网络特征

研究深度神经网络在过度参数化的情况下训练的现象，发现在网络具有小初值和学习率的假设下，权重向量趋向于集中在少量由数据决定的方向，这使得对于给定的输入数据，网络大小独立，只能得到有限数量的函数

Mar, 2018

通过临近算子进行量化神经网络的 ProxQuant

通过发现直通渐变法与 Nesterov 双平均算法相同，提出了一种更加合理的替代方法 ProxQuant，将基于量化网络的训练问题转化为规则化学习问题，并通过 Prox - 梯度方法进行优化。对于二元量化，ProxQuant 在稳定性上优于直通渐变法，并提供了一种强有力的替代方法。在将 ResNets 和 LSTMs 量化为二元和多位之后，ProxQuant 能在二元量化上实现优于现有水平的结果，并且在多位量化上与现有技术持平。

Oct, 2018

直通梯度和软阈值是稀疏训练所需的全部吗？

采用 ST-3 方法，结合软阈值和直通渐变估计来训练神经网络，可以有效地减少计算复杂性和在单次训练周期内逐渐增加稀疏度率而获得 SoA 结果。

Dec, 2022

离散与反向传播之间的桥梁：Through-Straight 及其拓展

本文提出 ReinMax 方法，通过集成 Heun's Method 来解决离散潜变量生成参数的梯度近似问题，该方法在结构化输出预测和无监督生成建模任务中均获得了比现有技术更好的结果，包括 ST 和 ST Gumbel-Softmax。

Apr, 2023