再探模糊神经网络:用广义哈明网络揭秘批归一化和 ReLU
通过深门控网络作为框架,理论分析和实验验证了几种 DGNs 变体,阐述了深度神经网络的训练和泛化方面的问题,着重讨论了为什么增加深度能帮助训练到一定程度,而增加深度会伤害训练,以及证明了门控自适应在泛化中的关键作用。
Feb, 2020
该研究使用深度 ReLU 神经网络对由 Gaussian Mixture Models (GMMs) 在 $R^d$ 下生成的无界数据进行二元分类,并首次获得了无需限制模型参数的分类的非渐进上界和收敛速度的超额风险 (超额误分类误差)。所得到的收敛速度不依赖于维度 d,表明深度 ReLU 网络能够克服在分类中的维度困境。通过利用高斯分布的解析性和快速衰减,我们考虑了一个无界域,以改善现有分类算法的泛化分析,为一般解析函数使用 ReLU 网络提供了新颖的近似误差界限,这对研究人员可能具有独立的兴趣。高斯分布很好地适用于建模应用中产生的数据,例如语音、图像和文本;我们的结果在实际分类问题中为深度神经网络的效率提供了理论验证。
Aug, 2023
研究了 ReLU 神经网络,引入了一种简化的模型,即门控线性单元(GaLU),并证明使用 GaLU 神经网络比使用 ReLU 神经网络更容易得到更强的优化和泛化结果,且当某些场景下,GaLU 网络与 ReLU 网络的行为相似。
Jun, 2019
研究深度神经网络的激活量化问题,提出了一种半波高斯量化器(HWGQ)来近似 ReLU 非线性激活函数,并探讨了多种反向逼近方式以解决梯度失配问题,实现的量化网络 HWGQ-Net 的性能比以前的低精度网络如二进制权重和二位量化激活的网络接近全精度网络(如 AlexNet,ResNet,GoogLeNet 和 VGG-Net)。
Feb, 2017
本文提出了一种新的随机梯度下降算法,利用随机噪声扰动,无需任何假设于数据分布、网络大小和训练集大小,就能够证明地达到单隐藏层 ReLU 网络的全局最优性,同时提出了一些一般的泛化保证,此外,数值测试结果也验证了算法和理论的实用性。
Aug, 2018
本文研究使用带有 ReLU 的深度神经网络能够代表的函数家族,提供了一个训练一个 ReLU 深度神经网络的一种算法,同时提高了在将 ReLU 神经网络函数逼近为浅层 ReLU 网络时已知下限的上界,并证明了这些间隙定理。
Nov, 2016
提出了一种使用广义偏差测量的 Batch Normalization(BN)变换,与传统的 BN 相比,它通过使用风险理论和量化风险管理的最新概念,加速神经网络训练的收敛速度,在结合 ReLU 非线性时,可以自然选择偏差测量和统计,实验证明在保持错误率方面与传统 BN 相比有所提高,总体而言,为设计选择提供了一个更灵活的 BN 变换。
Dec, 2018
本文介绍了一种新型 GGMs 变体,其通过在 GGM 上施加二分结构,并使用截断正态分布来管理隐藏变量以放宽高斯限制,实现了非常有效的推断,进而建立了与修正线性单元(ReLU)神经网络的连接,用于真实值,二进制和计数数据的输出构建,还将该模型扩展到深层结构,并展示了深层模型可以用于修正单元神经网络的无监督预训练。大量实验证据证明了提出的模型相对于竞争模型的优越性。
Nov, 2016
本文研究从标准高斯分布采样输入,从嘈杂的教师网络生成输出的一层隐藏神经网络的学习问题。研究分析了梯度下降在基于经验风险最小化的训练中的性能,并提供了算法相关的保证,证明了张量初始化后跟随梯度下降可以以线性速率收敛到地面真值参数,证明本文是第一个表征实际学习具有多个神经元的一层 ReLU 网络的恢复保证的工作。数值实验验证了我们的理论发现。
Jun, 2018
本论文探讨了将二值化技术应用于图神经网络的方法,并成功设计了能够在 Hamming 空间内快速构建动态图的模型,实现了在准确性轻微损失的代价下在嵌入式设备上取得了显著的存储空间和时间扩展的效果。
Dec, 2020