本研究采用变分丢失技术,提供了一种优雅的高斯丢失的贝叶斯解释,将其扩展到丢失速率无界的情况,提出一种减少梯度估计器方差的方法,并在每个权重的情况下报告第一个实验结果。有趣的是,在完全连接和卷积层中都导致极度稀疏的解决方案。这种效应类似于实证贝叶斯中的自动相关确定效应,但具有许多优势。我们在 LeNet 架构上将参数减少了最多 280 倍,并在类似 VGG 的网络上将参数减少了最多 68 倍,同时准确度几乎不减。
Jan, 2017
该论文介绍了一种基于变分推断的 dropout 新技术,并探讨了如何将其应用到 LSTM 和 GRU 模型中,这种方法表现优于现有技术,并在语言模型中取得了最佳结果。
Dec, 2015
研究使用 “修剪” 和 “组稀疏化正则化” 这两种方法来诱导 RNN 网络中的块稀疏性,形成 80% 到 90% 不等的稀疏度;该技术能够消除与数据存储和不规则内存访问相关的额外开销,同时提高硬件效率和降低参数总数。
Nov, 2017
本文指出,关于促进稀疏性的更强大的贝叶斯算法具有类似于长短期记忆 (LSTM) 网络或先前设计用于序列预测的替代门控反馈网络的结构,从而导致了一种新的稀疏估计系统,当授予训练数据时,可以在其他算法失败的方案中高效地估计最优解,包括在实际方向 - 到达 (DOA) 和三维几何恢复问题中。
Jun, 2017
该论文提出了一种通过初始训练过程中修剪权重来减少模型参数的技术,以便在减小了模型大小的同时,保留了准确度并显著提高了推理时间,在基准测试中使用该技术可以将模型大小降低 90%,速度提高 2 倍至 7 倍
Apr, 2017
本文研究了快速 Dropout(一种用于常规线性模型和神经网络的正则化方法)的后向传递启发式视角,证明了它实现了自适应、参数之间的二次正则化项,对欠拟合情况下的大权重进行奖励,对过度自信预测进行惩罚,并在未正则化的训练损失极小值处消失。该正则化项的导数完全基于训练误差信号,因此没有全局权重吸引器,这可以改善 RNN 的性能。作者基于四个音乐数据集,证实了该假设。
Nov, 2013
我们提出了一种自适应的变分 dropout 方法,在此方法中使每个神经元进化为通用或特定于某些输入,或完全被删除,以允许网络耐受更大程度的稀疏性,同时消除功能中冗余项,我们在多个公共数据集上验证了我们的依赖性变分 beta-Bernoulli dropout 方法,并获得比基准方法更紧凑的网络,其中在基本网络上保持准确性。
May, 2018
使用变分贝叶斯方法和后向传播裁剪算法等对循环神经网络进行训练,大幅降低了参数数量和提高了贝叶斯逼近性能。在语言建模和图像描述等任务中,贝叶斯循环神经网络优于传统循环神经网络。
这篇论文提出了一种基于 Bayesian 模型的 dropout 正则化方法,该方法将噪声注入神经元输出中以提供结构化稀疏性,从而去除计算图中的低 SNR 元素,并在多个深度神经结构中实现了显著的加速。
May, 2017
深度学习的复杂模型限制了其巨大潜力的发挥,需要高效的稀疏化技术。贝叶斯稀疏化是一种关键方法,能够设计出在各种深度学习应用中既计算效率高又性能竞争力强的模型。本研究指出贝叶斯模型简化是一种更高效的模型参数修剪方法,相对于现有的基于随机变分推断的方案,具有更好的计算效率和修剪率。研究中通过对各种深度学习架构的实例进行了验证,包括经典的网络如 LeNet 以及现代框架如视觉 Transformer 和 MLP-Mixer。
Sep, 2023