深度神经网络中冷后验的统计理论
本文探讨了后验温度的调整在贝叶斯神经网络中的作用以及先验的影响,研究发现,在高质量的分类数据集如 MNIST 或 CIFAR 中,经常使用的先验能够显著地高估标签的不确定性。研究在高斯过程回归中发现,任何正数的温度都对应于一个经过修改的先验下的有效后验,而调整后验温度直接类比于经验贝叶斯。当应用于分类任务时,调整先验并不直接等同于调整后验温度,但是降低后验温度可以得到更好地反映新增训练样本信息的模型。因此,虽然冷后验并不总是对应于精确的推理过程,但我们认为,它们可能更好地反映了我们真实的先验信念。
Jul, 2020
本文研究贝叶斯神经网络中后验概率的真实性及精度,通过 MCMC 抽样实验发现使用贝叶斯后验的预测性能显著不如基于 SGD 的点估计方法,并提出了一种 “冷后验” 的新方法,解释其使用背景及理论基础。本工作挑战了贝叶斯深度学习中关于精度估算的目标,提出从理解和探究 “冷后验” 方法优化神经网络性能入手。
Feb, 2020
图像分类中使用的基准数据集往往具有非常低的标签噪声。当贝叶斯神经网络在这些数据集上进行训练时,它们往往会欠拟合,错误地表示数据的不确定性。一种常见的解决方法是通过冷却后验,这提高了对训练数据的拟合,但从贝叶斯的角度来解释具有挑战性。我们探讨了是否可以通过具有信心诱导的先验分布来替代后验调温。首先,我们介绍了一种实际可采样且几乎与冷后验性能相匹配的 “DirClip” 先验。其次,我们介绍了一种直接在温度趋近于零时近似冷似然函数但难以采样的 “信心先验”。最后,我们提供了关于信心诱导先验的几个一般性见解,例如它们何时可能发散以及如何通过微调来减轻数值不稳定性。
Mar, 2024
研究表明, 使用全批处理的哈密顿蒙特卡罗方法可以提高贝叶斯神经网络的性能,并证明模型中选择的先验分布对性能的影响较小,但相比于深度集成、SGLD 等计算代价较小的方法,HMC 呈现出更接近于精确后验分布的预测分布;同时,研究发现贝叶斯神经网络在领域转移方面表现较差。
Apr, 2021
本文提出了几种方法来开发基于贝叶斯神经网络的数据增强,实现隐式使用随机扰动的对数似然,引入 “有限轨道” 设置,允许精确计算似然函数,并在更常见的 “全轨道” 设置中提供紧密的多样本边界。通过这些模型,我们发现冷后验效应即使在使用正确的似然函数的原则模型中使用数据增强仍然存在,因此,冷后验效应不能被视为使用不正确的似然函数的数据增强的人造因素。
Jun, 2021
本研究研究使用随机梯度下降算法训练的神经网络的权重统计数据,发现卷积神经网络和 ResNet 的权重显示出强烈的空间相关性,而全连接网络则显示出重尾的权重分布,根据这些观察得出更好的先验可以提高对各种图像分类数据集的性能。
Feb, 2021
我们对调和后验进行了详细研究,揭示了许多关键但以前未讨论过的问题。与以往结果相反,我们首先证明,在逼真的模型和数据集以及对后验的紧密控制情况下,随机性一般情况下不会提高测试准确性。最低温度通常是最优的。人们可能认为,带有某些随机性的贝叶斯模型至少可以在校准方面获得改进。然而,我们通过实证研究表明,当获得增益时,这是以降低测试准确性的代价为代价的。然后,我们讨论了使用贝叶斯模型来定位频率主义指标的需求的最优温度参数 λ 的优化目标的一个简单解释。与之前的作品相反,最后我们通过 PAC-Bayesian 分析表明,温度参数 λ 不能简单地被视为修正了先验或似然的错误设置。
Sep, 2023
通过引入易于扩展的 PyTorch 库 posteriors,我们在理论上具有吸引力的贝叶斯学习与现代机器学习模型的计算挑战得以克服,从而使得贝叶斯学习在大规模数据和参数范围下变得可访问且可扩展;通过在 posteriors 实现中引入一种温度设定的随机梯度马尔可夫链蒙特卡洛方法,平稳过渡到优化,并揭示了深度集成的一种次要修改,以确保它们对贝叶斯后验具有渐进无偏性;通过包括对冷后验效应的研究和对大型语言模型的应用实验来展示和比较贝叶斯近似的实用性。
May, 2024
本文提出了一种将先验知识通过外部摘要信息纳入贝叶斯神经网络中的简单方法,通过引入 Dirichlet 过程并推导相应的总结证据下限,将可用的摘要信息作为增广数据建模。使用本方法可以增强模型对分类任务难度和类别分布的了解,并在准确性、不确定性校准和对数据损坏的鲁棒性等方面表现良好。
Jul, 2022