ICMLJan, 2017

变分 Dropout 稀疏深度神经网络

TL;DR本研究采用变分丢失技术,提供了一种优雅的高斯丢失的贝叶斯解释,将其扩展到丢失速率无界的情况,提出一种减少梯度估计器方差的方法,并在每个权重的情况下报告第一个实验结果。有趣的是,在完全连接和卷积层中都导致极度稀疏的解决方案。这种效应类似于实证贝叶斯中的自动相关确定效应,但具有许多优势。我们在 LeNet 架构上将参数减少了最多 280 倍,并在类似 VGG 的网络上将参数减少了最多 68 倍,同时准确度几乎不减。