深度神经网络是否具有内在的奥卡姆剃刀原理?
本文提供了深度神经网络的隐式正则化和广义性能的新解释,即表明深度神经网络的参数 - 函数映射应该具有指数偏向简单函数的现象,并且该内在的简单性依赖有助于解释为什么深度网络在现实世界的问题上具有良好的泛化性能。此外,本文提出了一种基于 PAC-Bayes 理论的方法,可以保证目标函数产生高似然训练集时的良好期望泛化,而且该方法的普适性更好。
May, 2018
通过实验证明,即使考虑到参数编码,深度神经网络仍能够压缩训练数据,而这种压缩视角最初激励了神经网络中变分方法的使用。我们发现,这些变分方法提供了惊人的较差压缩界限,这可能解释了变分方法在深度学习中相对较差的实际性能。另一方面,简单的增量编码方法在深度网络上产生了出色的压缩效果,从而证明了 Solomonoff 的方法。
Feb, 2018
通过在类概率上使用狄利克雷分布对主观逻辑进行建模并使用确定性神经网络从数据学习收集导致预测的证据的功能,我们提出一种与贝叶斯神经网络正交的方法,该方法可以直接推断出预测的不确定性。我们的方法在检测超出分布的查询和对抗性扰动方面取得了空前的成功。
Jun, 2018
贝叶斯方法在深度神经网络中应用广泛,因为它通过边缘化取代优化,能够提高模型的校准性和准确性,并利用神经网络结构中的先验偏好来帮助泛化。此外,最近的贝叶斯深度学习实践进展也提高了模型的准确性、校准性和可伸缩性。
Jan, 2020
这篇研究论文探究了一种新型的贝叶斯深度学习,通过在网络结构上执行贝叶斯推断来加强深度网络的不确定性估计,并提出了一种有效的随机变分推断方法,以统一网络结构和权重的学习。
Nov, 2019
本文指出,关于促进稀疏性的更强大的贝叶斯算法具有类似于长短期记忆 (LSTM) 网络或先前设计用于序列预测的替代门控反馈网络的结构,从而导致了一种新的稀疏估计系统,当授予训练数据时,可以在其他算法失败的方案中高效地估计最优解,包括在实际方向 - 到达 (DOA) 和三维几何恢复问题中。
Jun, 2017
神经网络预测在面对越来越多的分布外数据时,往往呈现出不可预测和过度自信的特点。然而,我们的研究发现,与其任意拟合,神经网络预测往往趋向于一个恒定值,并且这个值通常接近于最优恒定解(OCS),即在没有观察到输入时最小化训练数据平均损失的预测。我们在 8 个包含不同分布转移的数据集(包括 CIFAR10-C 和 ImageNet-R,S)、不同损失函数(交叉熵、均方误差和高斯负对数似然)以及不同架构(CNN 和转换器)上展示了这种现象。此外,我们提出了这种行为的解释,首先通过实证研究验证,然后在简化的深度均质网络和 ReLU 激活的环境中进行理论研究。最后,我们展示了如何在面对分布外输入时利用我们的发现在实践中实现风险敏感的决策。
Oct, 2023