$L_0$-ARM: 基于随机二进制优化的网络稀疏化

Apr, 2019

$L_0$-ARM: 基于随机二进制优化的网络稀疏化

$L_0$-ARM: Network Sparsification via Stochastic Binary Optimization

Yang Li, Shihao Ji

TL;DR本论文研究了网络稀疏化问题，将其视为 $L_0$ 范数正则化的二元优化问题，并使用了 ARM 算法来解决，在保持基线方法准确性的同时实现了优秀的网络剪枝率。

Abstract

We consider network sparsification as an $L_0$-norm regularized binary optimization problem, where each unit of a neural network (e.g., weight, neuron, or channel, etc.) is attached with a stochastic binary gate, whose parameters are jointly optimized with original network parameters.

network sparsification $l_0$-norm binary optimization problem augment-reinforce-merge (arm)neural networks

发现论文，激发创造

ARM: 用于随机二值网络的增广 - 强化 - 合并梯度

本篇论文提出了一种叫做 ARM 估计量的反向传播算法，用于通过随机二进制层进行梯度反向传播，具有无偏差，低方差和低计算复杂性的特点。ARM 估计器通过变量增广、REINFORCE 和再参数化实现自适应方差缩减，通过公共随机数合并两个期望值。ARM 估计器的方差缩减机制还可归因于增广空间中的对称抽样或使用增广空间中的最优反对称 “自控” 基线函数以及一起使用 REINFORCE 估计器。实验结果表明，ARM 估计器在具有一个或多个随机二进制层的离散潜变量模型的自动编码变分推断和最大似然估计中提供了最先进的性能。

Jul, 2018

通过 $L_0$ 正则化学习稀疏神经网络

本研究提出了一种使用稀疏性约束进行神经网络剪枝的方法，该方法通过一系列随机门来收缩网络，以便训练和预测运算可以更加快速和高效。

Dec, 2017

DisARM：二元潜变量反义梯度估算器

介绍了 ARM 估计量无法完全缓解的波动性问题，提出了 DisARM 估计量，通过从增广变量中积分，成功地减少了波动性，同时保持与 ARM 相同的计算代价并在多样本变分边界优化中优于当前的 VIMCO 方法。

Jun, 2020

使用 BinMask 实现有效的 $L_0$ 神经网络正则化

本文提出了一种名为 BinMask 的简单 $L_0$ 正则化方法，该方法采用确定性二进制掩码相乘的权重并使用恒等误差反向传播估计器，在特征选择、网络稀疏化和模型正则化等任务上均取得了竞争性的性能表现。

Apr, 2023

正则化二进制网络训练

本文提出了一种新的正则化函数和可训练缩放因子的二进制训练方法，通过改进梯度下降算法中的反向传播计算，在 ImageNet 数据集上比传统二进制神经网络和 XNOR-net 有更好的性能表现。

Dec, 2018

BitNet: 比特正则化深度神经网络

BitNet 是一种基于 Minimum Description Length (MDL) 原则，通过动态限制网络参数的可取范围和值，优化训练神经网络的方法，在 MNIST 和 CIFAR-10 数据集上通过优化实数值翻译和缩放因子以及任意精度整型参数，BitNet 比等效的非正则化模型更快地收敛生成了质量更高且内存消耗更小的模型。

Aug, 2017

超稀疏神经网络：通过自适应正则化将探索转化为利用

提出了一种新颖且强大的稀疏学习方法：自适应正则化训练（ART）。通过逐步增加权重正则化，我们将稠密网络压缩为稀疏网络，并通过最高权重的方式压缩预训练模型的知识。在极高稀疏度情景下，我们的方法在 CIFAR 和 TinyImageNet 上比其他稀疏化方法具有显著的性能提升，并对高量级权重中编码的模式提供了新的认识。

Aug, 2023

稀疏化二进制神经网络的二进制域泛化

该论文提出了一种新的更一般的二进制域，扩展了标准二进制域，并且更适合剪枝技术，在保证性能的同时提高了压缩率，这种方法与其他修剪策略相结合可以生成高效稀疏网络，并减少内存使用和运行时间延迟。

Jun, 2023

DARB: 一种面向深度神经网络的密度感知规则块剪枝方法

本研究基于先前研究结构性剪枝技术，从稀疏神经网络的角度分析剪枝问题，提出 Block-Max Weight Masking (BMWM) 和 Density-Adaptive Regular-Block (DARB) 两种新方法，比现实有人工智能领域的现有结构化剪枝技术提高了 13-25 倍和 14.3 倍的剪枝和解码效率。

Nov, 2019

神经网络压缩：二值化和少量全精度权值

本论文提出了自动修剪二值化 (APB) 技术，结合量化和修剪，提高二元网络的表示能力，通过将部分全精度权重进行二值化或保留原精度降低其存储，具备更好的精度 / 内存的性价比且在效率方面持续优化。

Jun, 2023