深度神经网络中冷后验的统计理论
通过在 CNN 的内核上建立概率分布,使用伯努利变分分布来近似模型的不可切合后验,并将dropout网络训练视为 Bayesian 神经网络中的近似推理。相比于标准技术,我们的模型在小数据上具备更好的鲁棒性,并在 CIFAR-10 上的分类准确率上取得了发表的最新结果的显著改善。
Jun, 2015
本文提出了基于贝叶斯卷积神经网络的变分推断方法,通过引入欠拟合和过拟合的概率分布来解决神经网络普遍存在的预测不确定性问题,并在图像分类等任务上进行了实验测试。
Jan, 2019
本文研究贝叶斯神经网络中后验概率的真实性及精度,通过 MCMC 抽样实验发现使用贝叶斯后验的预测性能显著不如基于 SGD 的点估计方法,并提出了一种“冷后验”的新方法,解释其使用背景及理论基础。本工作挑战了贝叶斯深度学习中关于精度估算的目标,提出从理解和探究“冷后验”方法优化神经网络性能入手。
Feb, 2020
本文提出了一种基于贝叶斯推断的神经网络未来预测方法,该方法通过对ReLU网络权重进行近似高斯分布的理论分析和实验验证,同时发现了使用简单的贝叶斯近似方法可以解决ReLU网络的过度自信问题。
Feb, 2020
本文探讨了后验温度的调整在贝叶斯神经网络中的作用以及先验的影响,研究发现,在高质量的分类数据集如MNIST或CIFAR中,经常使用的先验能够显著地高估标签的不确定性。研究在高斯过程回归中发现,任何正数的温度都对应于一个经过修改的先验下的有效后验,而调整后验温度直接类比于经验贝叶斯。当应用于分类任务时,调整先验并不直接等同于调整后验温度,但是降低后验温度可以得到更好地反映新增训练样本信息的模型。因此,虽然冷后验并不总是对应于精确的推理过程,但我们认为,它们可能更好地反映了我们真实的先验信念。
Jul, 2020
本研究研究使用随机梯度下降算法训练的神经网络的权重统计数据,发现卷积神经网络和 ResNet 的权重显示出强烈的空间相关性,而全连接网络则显示出重尾的权重分布,根据这些观察得出更好的先验可以提高对各种图像分类数据集的性能。
Feb, 2021
贝叶斯深度学习中的冷后验效应表明,在温度$ T < 1 $的后验中,预测效果可能比贝叶斯后验($ T = 1 $)要好。本研究更深入地阐述了冷后验效应,揭示只有当贝叶斯后验出现欠拟合情况时,才会出现冷后验效应。事实上,理论上证明了如果没有欠拟合,就不会有冷后验效应。
Oct, 2023
图像分类中使用的基准数据集往往具有非常低的标签噪声。当贝叶斯神经网络在这些数据集上进行训练时,它们往往会欠拟合,错误地表示数据的不确定性。一种常见的解决方法是通过冷却后验,这提高了对训练数据的拟合,但从贝叶斯的角度来解释具有挑战性。我们探讨了是否可以通过具有信心诱导的先验分布来替代后验调温。首先,我们介绍了一种实际可采样且几乎与冷后验性能相匹配的“DirClip”先验。其次,我们介绍了一种直接在温度趋近于零时近似冷似然函数但难以采样的“信心先验”。最后,我们提供了关于信心诱导先验的几个一般性见解,例如它们何时可能发散以及如何通过微调来减轻数值不稳定性。
Mar, 2024