神经网络权重的逐比特训练

Feb, 2022

Bit-wise Training of Neural Network Weights

Cristian Ivan

TL;DR介绍了一种学习表示神经网络权重的个别位的算法，允许对任意位深度的整数值进行训练，无需额外的约束或正则化技术，自然地发现了稀疏网络。证明了在选择性地训练位的情况下，实现高准确度的最大贡献来自前三位最重要的位，而其余位则提供内在的正则化。因此，可以使用超过 90％的网络存储任意代码，例如随机噪声，二进制文件或甚至先前训练的网络的权重。

Abstract

We introduce an algorithm where the individual bits representing the weights of a neural network are learned. This method allows training weights with →

neural network algorithm sparse networks integer values regularization techniques

发现论文，激发创造

位元神经网络

通过提出一种基于二进制值的神经网络训练方法 (BNN)，实现了通过基本的比特逻辑实现神经网络的前向传递。在资源受限的环境中，BNN 可以取代浮点数运算，减少存储空间占用、内存带宽、以及硬件能耗。同时，我们提出了权重压缩和噪声反向传播等训练技术，生成功能基本与实数网络相当的 BNN。通过在 MNIST 数据集上进行实验，我们证明了 BNN 表现出竞争性的性能并节省大量计算资源。

Jan, 2016

低比特宽度权重和激活的卷积神经网络有效训练

本文提出了三种实用方法来优化低精度深度卷积神经网络，包括渐进式量化、随机量化以及联合知识蒸馏来提高网络训练。通过实验证明，该方法在各种数据集上表现良好。

Aug, 2019

高效的位深度神经网络随机推断

通过多个随机取样的网络模型的集成决策，提高比特神经网络在分类准确性方面的性能，并使用硬件高效的随机舍入程序对其进行评估。我们的方法对于提高嵌入式比特神经网络的有效性具有贡献。

Nov, 2016

少乘法的神经网络

研究二值化训练和量化方法在神经网络训练中的应用，通过在 MNIST、CIFAR10、SVHN 三个数据集上的实验证明，这种方法不仅不会降低分类性能，反而可以实现比标准随机梯度下降训练更好的性能

Oct, 2015

BitNet: 比特正则化深度神经网络

BitNet 是一种基于 Minimum Description Length (MDL) 原则，通过动态限制网络参数的可取范围和值，优化训练神经网络的方法，在 MNIST 和 CIFAR-10 数据集上通过优化实数值翻译和缩放因子以及任意精度整型参数，BitNet 比等效的非正则化模型更快地收敛生成了质量更高且内存消耗更小的模型。

Aug, 2017

使用单个比特为每个权重训练宽残差网络以进行部署

该研究报告介绍了一种能够在资源受限制的嵌入式硬件上快速高效地部署训练完毕的深度神经网络的方法，即使用单个比特来表示和存储每个学习到的权重参数，通过在训练中为每个层应用等于层特定标准差的恒定未学习值的缩放因子来简化现有方法并提高误差率，并通过不学习批归一化缩放和偏移参数来改善网络性能。

Feb, 2018

构建有效的低比特宽度卷积神经网络

本研究提出了三种简单有效的方法来优化低精度权重和低比特位激活函数的深度卷积神经网络：第一，采用两阶段优化策略以逐步找到好的局部最小值；第二，逐步降低比特数；第三，同时训练全精度模型和低精度模型以提供指引。该方法在不降低网络性能的情况下成功地减小了深度学习训练的计算量和存储需求。

Nov, 2017

FleXOR: 可训练分数量化

本文提出了一种基于加密算法 / 架构的量化压缩方法，通过加入 XOR 门并利用反向传播进行梯度计算，实现了每个权重有小数位的量化比特数，并可用于深度神经网络，结果表明相比二进制神经网络，该方法能够在模型准确性和模型尺寸上达到更好的平衡。

Sep, 2020

深度神经网络对权重二值化和其他非线性扭曲具有强鲁棒性

本文研究发现深度神经网络在训练时即使将权重量化并投影为二进制表示也能取得优秀的性能，而在测试阶段，这些网络对于除量化以外的扭曲，包括加性和乘性噪声以及一类非线性投影具有显著的鲁棒性。此外，我们还发现基本水平的鲁棒性可以通过调整或删除一个通用的训练启发式（即在反向传播过程中投影量化权重）来实现，包括使用其他类型的权重投影和简单地剪裁权重。最后，我们提出了一种随机投影规则，实现了无数据增强条件下 CIFAR-10 中 7.64% 的测试错误率的最新记录。

Jun, 2016

最小化随机代码学习：从压缩模型参数中获取二进制位

本文提出了一种通过使用全变分权重分布进行深度神经网络压缩的方法，能够实现更高的压缩率和更高的测试性能，并在 LeNet-5/MNIST 和 VGG-16/CIFAR-10 基准测试中创造出新的最优结果。

Sep, 2018