自定义梯度估计器乃掩饰过后的直通式估计器
通过学习使用 STE 实现反向传播算法中的梯度下降,通过正确选择 STE 并验证其梯度与总体梯度正相关,进而解决了搜索负方向最小化训练损失的问题。研究还比较了不同 STE 算法对 CIFAR-10 数据集的训练结果和稳定性。
Mar, 2019
该论文提出了一种 alpha-blending 替代 Straight-Through Estimator 的方法用于量化神经网络,该方法逐步将模型从全精度转化为低精度并在 CIFAR10 和 ImageNet 数据集上表现出更好的结果。
Mar, 2019
通过平衡估计误差和梯度稳定性,我们提出了修正的直通估计器(ReSTE),用于神经网络压缩,其比其他估计器更合理且能灵活地平衡估计误差和梯度稳定性。实验结果表明,ReSTE 在 CIFAR-10 和 ImageNet 数据集上表现出色,超越了其他现有方法,而不需要任何辅助模块或损失函数。
Aug, 2023
研究深度神经网络在过度参数化的情况下训练的现象,发现在网络具有小初值和学习率的假设下,权重向量趋向于集中在少量由数据决定的方向,这使得对于给定的输入数据,网络大小独立,只能得到有限数量的函数
Mar, 2018
本文提出了一种新的基于 element-wise gradient scaling 的量化网络的训练方法,该方法可以更好地解决量化误差问题,提高在有限硬件资源情况下深度神经网络的稳定性和准确性。
Apr, 2021
本文研究了在使用向量量化直通估计训练神经网络时所遇到的挑战,通过引入仿射重新参数化的过程和交替优化方法来改进模型性能。对多种模型结构和任务进行测试,包括 AlexNet,ResNet 和 ViT 以及图像分类和生成建模等领域。
May, 2023
该论文介绍了一种统一的框架来解决网络量化问题,通过引入一种新型的距离感知量化器 (DAQ), 该方法既解决了梯度匹配问题,也解决了量化差异问题,有效提高了各种位宽下的网络性能。
Aug, 2021
本研究针对带图等情景,探讨 Stochastic gradient descent (SGD) 中 consitent estimator 的效用及其相对于 unbiased estimator 的同等收敛性。实验证明,consistent estimator 在 strongly convex, convex, and nonconvex 目标下均表现良好,这一研究有助于进一步提高 SGD 的效率并设计大规模图的高效训练算法。
Jul, 2018
基于梯度训练的学习图像压缩中,量化方法的选择对于训练和测试的匹配性和梯度估计的风险存在权衡,本研究提出了一种基于随机均匀退火的方法,通过可调的温度系数来控制权衡,并使用两个巧妙的技巧改进了现有的量化方法,取得了比代表性图像压缩网络上现有方法更好的性能。
Sep, 2023