深度神经网络是否具有内在的奥卡姆剃刀原理？

Apr, 2023

深度神经网络是否具有内在的奥卡姆剃刀原理？

Do deep neural networks have an inbuilt Occam's razor?

Chris Mingard, Henry Rees, Guillermo Valle-Pérez, Ard A. Louis

TL;DR研究表明，深度神经网络成功的关键在于结构化数据，以及拥有一种像奥卡姆剃刀一般的归纳偏差，使其能够对抗复杂度呈指数级增长的函数，通过引入贝叶斯图像和随机梯度下降等方法，我们试图将网络架构、训练算法和数据结构三个组件相互分离。

Abstract

The remarkable performance of overparameterized deep neural networks (DNNs) must arise from an interplay between network architecture, training algorithms, and structure in the data. To disentangle these three components, we apply a →

deep neural networks supervised learning bayesian inductive bias structured data

发现论文，激发创造

深度学习具有泛化能力是因为参数 - 函数映射倾向于简单函数

本文提供了深度神经网络的隐式正则化和广义性能的新解释，即表明深度神经网络的参数 - 函数映射应该具有指数偏向简单函数的现象，并且该内在的简单性依赖有助于解释为什么深度网络在现实世界的问题上具有良好的泛化性能。此外，本文提出了一种基于 PAC-Bayes 理论的方法，可以保证目标函数产生高似然训练集时的良好期望泛化，而且该方法的普适性更好。

May, 2018

深度学习模型的描述长度

通过实验证明，即使考虑到参数编码，深度神经网络仍能够压缩训练数据，而这种压缩视角最初激励了神经网络中变分方法的使用。我们发现，这些变分方法提供了惊人的较差压缩界限，这可能解释了变分方法在深度学习中相对较差的实际性能。另一方面，简单的增量编码方法在深度网络上产生了出色的压缩效果，从而证明了 Solomonoff 的方法。

Feb, 2018

利用证据理论的深度学习进行分类不确定性量化

通过在类概率上使用狄利克雷分布对主观逻辑进行建模并使用确定性神经网络从数据学习收集导致预测的证据的功能，我们提出一种与贝叶斯神经网络正交的方法，该方法可以直接推断出预测的不确定性。我们的方法在检测超出分布的查询和对抗性扰动方面取得了空前的成功。

Jun, 2018

贝叶斯深度学习的案例

贝叶斯方法在深度神经网络中应用广泛，因为它通过边缘化取代优化，能够提高模型的校准性和准确性，并利用神经网络结构中的先验偏好来帮助泛化。此外，最近的贝叶斯深度学习实践进展也提高了模型的准确性、校准性和可伸缩性。

Jan, 2020

深度网络中的泛化（IIIb 理论）

该论文研究了深度神经网络中过拟合的问题，证明了使用特定的损失函数时神经网络的收敛性及性能，提出了一种实用的判断不同零最小化点泛化性能的方法。

Jun, 2018

奥卡姆梯度下降

通过应用学习理论，我们提出了 Occam 梯度下降算法，同时降低神经网络的拓扑结构大小和权重，从而在准确度、计算和模型压缩方面优于传统梯度下降算法。

May, 2024

通过贝叶斯学习深度神经网络结构来度量不确定性

这篇研究论文探究了一种新型的贝叶斯深度学习，通过在网络结构上执行贝叶斯推断来加强深度网络的不确定性估计，并提出了一种有效的随机变分推断方法，以统一网络结构和权重的学习。

Nov, 2019

深度学习的概率论理论

通过发展概率性深度学习框架，研究人员解释了为什么深度学习算法能够胜任复杂感知推断任务，并发现了这些算法的成功和不足之处，提供了其改进的原则路径。

Apr, 2015

从贝叶斯稀疏到门控循环神经网络

本文指出，关于促进稀疏性的更强大的贝叶斯算法具有类似于长短期记忆 (LSTM) 网络或先前设计用于序列预测的替代门控反馈网络的结构，从而导致了一种新的稀疏估计系统，当授予训练数据时，可以在其他算法失败的方案中高效地估计最优解，包括在实际方向 - 到达 (DOA) 和三维几何恢复问题中。

Jun, 2017

深度神经网络的可预测外推倾向

神经网络预测在面对越来越多的分布外数据时，往往呈现出不可预测和过度自信的特点。然而，我们的研究发现，与其任意拟合，神经网络预测往往趋向于一个恒定值，并且这个值通常接近于最优恒定解（OCS），即在没有观察到输入时最小化训练数据平均损失的预测。我们在 8 个包含不同分布转移的数据集（包括 CIFAR10-C 和 ImageNet-R,S）、不同损失函数（交叉熵、均方误差和高斯负对数似然）以及不同架构（CNN 和转换器）上展示了这种现象。此外，我们提出了这种行为的解释，首先通过实证研究验证，然后在简化的深度均质网络和 ReLU 激活的环境中进行理论研究。最后，我们展示了如何在面对分布外输入时利用我们的发现在实践中实现风险敏感的决策。

Oct, 2023