解开筛选,数据增强和先验在冷后验效应中的作用
本文研究贝叶斯神经网络中后验概率的真实性及精度,通过 MCMC 抽样实验发现使用贝叶斯后验的预测性能显著不如基于 SGD 的点估计方法,并提出了一种“冷后验”的新方法,解释其使用背景及理论基础。本工作挑战了贝叶斯深度学习中关于精度估算的目标,提出从理解和探究“冷后验”方法优化神经网络性能入手。
Feb, 2020
本文探讨了后验温度的调整在贝叶斯神经网络中的作用以及先验的影响,研究发现,在高质量的分类数据集如MNIST或CIFAR中,经常使用的先验能够显著地高估标签的不确定性。研究在高斯过程回归中发现,任何正数的温度都对应于一个经过修改的先验下的有效后验,而调整后验温度直接类比于经验贝叶斯。当应用于分类任务时,调整先验并不直接等同于调整后验温度,但是降低后验温度可以得到更好地反映新增训练样本信息的模型。因此,虽然冷后验并不总是对应于精确的推理过程,但我们认为,它们可能更好地反映了我们真实的先验信念。
Jul, 2020
本文讨论贝叶斯神经网络在图片分类上的应用,发现此类应用使用的是错误的似然度。作者开发了一个描述“筛选”过程的生成模型,并与之前使用的调整后的后验概率似然度进行了基于贝叶斯思想的对比。
Aug, 2020
本文提出了几种方法来开发基于贝叶斯神经网络的数据增强,实现隐式使用随机扰动的对数似然,引入“有限轨道”设置,允许精确计算似然函数,并在更常见的“全轨道”设置中提供紧密的多样本边界。通过这些模型,我们发现冷后验效应即使在使用正确的似然函数的原则模型中使用数据增强仍然存在,因此,冷后验效应不能被视为使用不正确的似然函数的数据增强的人造因素。
Jun, 2021
通过PAC-Bayes泛化界限的视角研究了冷后效应,发现在非渐进情况下,当训练样本数量相对较少时,应该考虑到近似贝叶斯推断对超样本数据性能的保证,并指出对于回归和分类任务,利用PAC-Bayes解释温度参数可以解释冷后效应。
Jun, 2022
这篇论文提出了一种基于贝叶斯神经网络的去偏方法,通过刻画后验概率与数据偏差(or 伪相关性)之间的关系,利用高确信性的核心特征代替不确定性高的特征,从而提高了模型的公平性和准确性。
Mar, 2023
贝叶斯深度学习中的冷后验效应表明,在温度$ T < 1 $的后验中,预测效果可能比贝叶斯后验($ T = 1 $)要好。本研究更深入地阐述了冷后验效应,揭示只有当贝叶斯后验出现欠拟合情况时,才会出现冷后验效应。事实上,理论上证明了如果没有欠拟合,就不会有冷后验效应。
Oct, 2023
图像分类中使用的基准数据集往往具有非常低的标签噪声。当贝叶斯神经网络在这些数据集上进行训练时,它们往往会欠拟合,错误地表示数据的不确定性。一种常见的解决方法是通过冷却后验,这提高了对训练数据的拟合,但从贝叶斯的角度来解释具有挑战性。我们探讨了是否可以通过具有信心诱导的先验分布来替代后验调温。首先,我们介绍了一种实际可采样且几乎与冷后验性能相匹配的“DirClip”先验。其次,我们介绍了一种直接在温度趋近于零时近似冷似然函数但难以采样的“信心先验”。最后,我们提供了关于信心诱导先验的几个一般性见解,例如它们何时可能发散以及如何通过微调来减轻数值不稳定性。
Mar, 2024