理解直通估计在训练激活量化神经网络中的作用
该论文提出了一种 alpha-blending 替代 Straight-Through Estimator 的方法用于量化神经网络,该方法逐步将模型从全精度转化为低精度并在 CIFAR10 和 ImageNet 数据集上表现出更好的结果。
Mar, 2019
通过平衡估计误差和梯度稳定性,我们提出了修正的直通估计器(ReSTE),用于神经网络压缩,其比其他估计器更合理且能灵活地平衡估计误差和梯度稳定性。实验结果表明,ReSTE 在 CIFAR-10 和 ImageNet 数据集上表现出色,超越了其他现有方法,而不需要任何辅助模块或损失函数。
Aug, 2023
当学习速率足够小的时候,我们通过实验证明了一类大规模的权重梯度估计器等价于直通估计器 (STE),无需改变权重初始化和学习速率,可用于处理量化感知训练中的梯度问题。
May, 2024
本文研究了在使用向量量化直通估计训练神经网络时所遇到的挑战,通过引入仿射重新参数化的过程和交替优化方法来改进模型性能。对多种模型结构和任务进行测试,包括 AlexNet,ResNet 和 ViT 以及图像分类和生成建模等领域。
May, 2023
本文提出了一种新的基于 element-wise gradient scaling 的量化网络的训练方法,该方法可以更好地解决量化误差问题,提高在有限硬件资源情况下深度神经网络的稳定性和准确性。
Apr, 2021
将离散逻辑约束注入神经网络学习是神经符号人工智能领域的主要挑战之一。本文发现,直通估算器这一用于训练二进制神经网络的方法可有效应用于将逻辑约束纳入神经网络学习中。我们设计了一种系统的方式将离散逻辑约束表示为一个损失函数;通过梯度下降,利用直通估算器最小化该损失函数可以使得神经网络的权重朝着使二值化输出满足逻辑约束的方向更新。实验结果表明,通过利用 GPU 和批次训练,这种方法比现有的需要进行大量符号计算来计算梯度的神经符号方法具有更好的可扩展性。此外,我们证明了该方法适用于不同类型的神经网络,如多层感知机(MLP)、卷积神经网络(CNN)和图神经网络(GNN),使它们能够通过直接从已知约束中学习来学习了无标签数据或更少标签数据。
Jul, 2023
研究深度神经网络在过度参数化的情况下训练的现象,发现在网络具有小初值和学习率的假设下,权重向量趋向于集中在少量由数据决定的方向,这使得对于给定的输入数据,网络大小独立,只能得到有限数量的函数
Mar, 2018
通过发现直通渐变法与 Nesterov 双平均算法相同,提出了一种更加合理的替代方法 ProxQuant,将基于量化网络的训练问题转化为规则化学习问题,并通过 Prox - 梯度方法进行优化。对于二元量化,ProxQuant 在稳定性上优于直通渐变法,并提供了一种强有力的替代方法。在将 ResNets 和 LSTMs 量化为二元和多位之后,ProxQuant 能在二元量化上实现优于现有水平的结果,并且在多位量化上与现有技术持平。
Oct, 2018
采用 ST-3 方法,结合软阈值和直通渐变估计来训练神经网络,可以有效地减少计算复杂性和在单次训练周期内逐渐增加稀疏度率而获得 SoA 结果。
Dec, 2022
本文提出 ReinMax 方法,通过集成 Heun's Method 来解决离散潜变量生成参数的梯度近似问题,该方法在结构化输出预测和无监督生成建模任务中均获得了比现有技术更好的结果,包括 ST 和 ST Gumbel-Softmax。
Apr, 2023