BitNet: 比特正则化深度神经网络

Aug, 2017

BitNet: Bit-Regularized Deep Neural Networks

Aswin Raghavan, Mohamed Amer, Sek Chai, Graham Taylor

TL;DRBitNet 是一种基于 Minimum Description Length (MDL) 原则，通过动态限制网络参数的可取范围和值，优化训练神经网络的方法，在 MNIST 和 CIFAR-10 数据集上通过优化实数值翻译和缩放因子以及任意精度整型参数，BitNet 比等效的非正则化模型更快地收敛生成了质量更高且内存消耗更小的模型。

Abstract

We present a novel optimization strategy for training neural networks which we call "bitnet". The parameters of →

bitnet neural networks optimization strategy minimum description length integer-valued parameters

发现论文，激发创造

正则化二进制网络训练

本文提出了一种新的正则化函数和可训练缩放因子的二进制训练方法，通过改进梯度下降算法中的反向传播计算，在 ImageNet 数据集上比传统二进制神经网络和 XNOR-net 有更好的性能表现。

Dec, 2018

Bi-Real Net: 将深度网络二值化以实现真实网络性能

本文研究了一比特卷积神经网络，通过使用 Bi-Real net 和新颖的训练算法来提高其表现能力和训练困难性，并在 ImageNet 上获得了 56.4％的 top-1 分类准确性，比现有技术提高了 10％以上。

Nov, 2018

位元神经网络

通过提出一种基于二进制值的神经网络训练方法 (BNN)，实现了通过基本的比特逻辑实现神经网络的前向传递。在资源受限的环境中，BNN 可以取代浮点数运算，减少存储空间占用、内存带宽、以及硬件能耗。同时，我们提出了权重压缩和噪声反向传播等训练技术，生成功能基本与实数网络相当的 BNN。通过在 MNIST 数据集上进行实验，我们证明了 BNN 表现出竞争性的性能并节省大量计算资源。

Jan, 2016

BitNet：面向大型语言模型的 1 比特 Transformer 的扩展

BitNet 是一种可扩展且稳定的 1 位 Transformer 架构，用于大型语言模型，通过引入 BitLinear 作为 nn.Linear 层的替代方案，BitNet 可以从零开始训练 1 位权重，实验结果表明，与最先进的 8 位量化方法和 FP16 Transformer 相比，BitNet 在语言建模方面能够达到有竞争力的性能，同时大幅减少内存占用和能源消耗，此外，BitNet 表现出与全精度 Transformer 类似的扩展规律，说明它具有在保持高效和性能优势的同时，有效扩展到更大的语言模型的潜能。

Oct, 2023

神经网络权重的逐比特训练

介绍了一种学习表示神经网络权重的个别位的算法，允许对任意位深度的整数值进行训练，无需额外的约束或正则化技术，自然地发现了稀疏网络。证明了在选择性地训练位的情况下，实现高准确度的最大贡献来自前三位最重要的位，而其余位则提供内在的正则化。因此，可以使用超过 90％的网络存储任意代码，例如随机噪声，二进制文件或甚至先前训练的网络的权重。

Feb, 2022

训练二值化深度神经网络时规范激活分布

本文提出使用分布损失来规范激活流，成功改善了二值神经网络训练中遇到的退化、饱和和梯度失配等问题，并在不影响其能量效率的同时，提高了其准确性。此外，该规范化方法还能使训练过程更加稳健。

Apr, 2019

概率二元神经网络

本文提出使用二进制权重和激活的神经网络的概率训练方法 - BLRNet，通过随机性避免了对 sign () 等不可微函数的梯度的逼近，并仍在测试时获得完全的二进制神经网络。此外，它允许通过从权重分布中进行抽样来进行任时集成预测以提高性能和不确定性估计。我们在多个标准基准上评估了 BLRNet。

Sep, 2018

二值化神经网络：训练深度神经网络，使权重和激活限制为 + 1 或 - 1

本篇论文介绍了一种通过二值化权重和激活训练神经网络的方法，并在 Torch7 和 Theano 框架上进行了实验，在 MNIST、CIFAR-10 和 SVHN 数据集上取得了接近最佳水平的结果。同时，作者提出了一种二进制矩阵乘法 GPU 核函数，使得 MNIST BNN 可以比优化前快 7 倍，而不影响分类准确性。

Feb, 2016

$\partial\mathbb {B}$ 网格：通过梯度下降学习离散函数

该研究介绍了一种利用梯度下降学习离散布尔值函数的可微分神经网络，该网络具有不可微分的硬网络和可微分的软网络，可以通过后向传播算法进行训练。在实验中，该网络展现了可比较的性能，同时由于使用了 1 比特权重的方式，紧凑并且具有解释性。

May, 2023

量化网络

该论文提出了一种将低位量化作为可微非线性函数的新方法，并通过该方法实现了神经网络的低位量化，并取得了比现有方法更好的效果。

Nov, 2019