最大似然不确定性估计:对异常值的鲁棒性
本研究评估了贝叶斯方法在深度学习中用于不确定性估计的方法,重点关注广泛应用的 Laplace 近似及其变体。我们的研究发现,传统的拟合 Hessian 矩阵的方法对于处理超出分布的检测效率产生了负面影响。我们提出了一种不同的观点,认为仅关注优化先验精度可以在超出分布检测中产生更准确的不确定性估计,并保持适度的校准度。此外,我们证明了这种特性与模型的训练阶段无关,而是与其内在性质相关。通过广泛的实验评估,我们证实了我们简化方法在超出分布领域中优于传统方法的优越性。
Dec, 2023
本文研究了基于经验似然和分布鲁棒解的方法进行随机优化问题的统计推断,特别关注最优值的置信区间和渐近达到精确覆盖的解决方案。我们提出了一个基于非参数 $f$- 分歧球构建的分布不确定性集合的广义经验似然框架,用于 Hadamard 可微函数和随机优化问题,从而提供了一个有原则的选择分布不确定性区域大小的方法,以实现达到精确覆盖的单侧和双侧置信区间。我们还给出了我们分布鲁棒的公式的渐近展开,表明如何通过方差来规范化问题。最后,我们证明了,我们研究的分布鲁棒公式的优化器具有与经典样本平均逼近中的优化器基本相同的一致性属性。我们的一般方法适用于快速混合的平稳序列,包括几何上遗传的 Harris 递归马尔科夫链。
Oct, 2016
在长尾分布的情景中,模型对尾部类别的识别能力受限于尾部样本的少量表示。本文提出了一种基于特征嵌入的正交不确定性表示方法(OUR)和端到端的训练策略,以改善模型的长尾现象。研究结果在长尾数据集上进行的综合评估表明,OUR 方法显著改善了模型的长尾现象,为其他长尾学习方法带来了一致的性能提升。
Oct, 2023
我们提出了一种新的鲁棒回归的表述,通过整合不确定性集的所有实现并采用平均方法来获得普通最小二乘回归问题的最优解。我们证明了这个表述意外地恢复了岭回归,并在现有回归问题的鲁棒优化和均方误差方法之间建立了缺失的联系。我们首先证明了四种不确定性集的等价性:椭圆、盒子、钻石和预算,并提供了惩罚项的闭式表达方式,其是样本大小、特征大小以及扰动保护强度的函数。然后我们展示了在具有不同扰动水平的合成数据集中,平均表述比现有最坏情况表述在样本外性能上的一致改进。重要的是,随着扰动水平的增加,改进也增加,这证实了我们方法在高噪声环境中的优势。我们对从 UCI 数据集获得的真实回归问题的样本外数据集中报告了类似的改进。
Nov, 2023
该研究介绍了一种基于变换的确定性鲁棒初始估计方法及其对应的迭代加权最小二乘算法,用于解决存在异常值时基于最大似然估计的广义线性模型中初始估计不准确的问题。
Sep, 2017
我们研究了在协变量和响应函数都存在重尾污染的情况下,强鲁棒回归估计器的高维特性。尤其是,我们针对一族包括无二阶甚至更高阶矩不存在情况下的椭圆形协变量和噪声数据分布,提供了 M - 估计的锐性渐近特性描述。我们表明,尽管具有一致性,在存在重尾噪声的高维情形中,优化调整的 Huber 损失与位置参数 δ 是次优的,强调了需要进一步正则化以达到最佳性能的必要性。这个结果还揭示了 δ 作为样本复杂性和污染的函数的一个有趣的转变的存在。此外,我们导出了岭回归的超额风险的衰减速率。我们表明,对于有限二阶矩的噪声分布,岭回归虽然是最佳的且适用的,但当协变量的二阶矩不存在时,它的衰减速率可能会更快。最后,我们展示了我们的公式可以方便地推广到更丰富的模型和数据分布,如对混合模型的任意凸正则化训练的广义线性估计。
Sep, 2023
通过量化分位数的最大似然目标为学习内点分布并改善稀有点分离,我们的方法使用训练好的判别特征适应一个标准化流,并根据评估的对数似然检测稀有点。通过实验评估,我们的方法表现优于现有的无监督方法,并与最近的自监督方法竞争。我们的工作能减少对充分负样本训练数据的依赖,尤其对医学诊断或遥感等领域具有重要意义。
Aug, 2023
基于数据驱动方法的概率建模用于电力系统运行和规划过程,需要充足的大型数据集。本文提出一种自适应的核密度估计模型,通过分配可学习的权重给核心实现了该模型的性能改进,同时使用修正的期望最大化算法加快优化速度,并通过和高斯混合模型的比较,表明所提出的模型具有良好的性能。
Oct, 2023
本研究提出使用 Ensemble Kalman Filter 对神经网络权重的不确定性进行近似估计,结合最大似然估计优化噪声分布协方差,以应用于通过 Twitter 平台检测真实世界事件中的异常值。
Dec, 2017
本文提出了一种新型的分布鲁棒优化模型 —— 似然鲁棒优化模型,以历史数据为依据,用置信区间代替概率分布,解决了当环境不确定且输入分布未知的决策问题,避免了以往过于谨慎的方法对真实分布的偏离和对输出的限制。
Jul, 2013