最大似然不确定性估计：对异常值的鲁棒性

AAAIFeb, 2022

最大似然不确定性估计：对异常值的鲁棒性

Maximum Likelihood Uncertainty Estimation: Robustness to Outliers

Deebul S. Nair, Nico Hochgeschwender, Miguel A. Olivares-Mendez

TL;DR本研究针对回归任务中的训练数据中的离群值和嘈杂标签对基于最大似然的不确定性估计方法的鲁棒性进行基准测试，并提出使用重尾分布（拉普拉斯分布）来提高对离群值的鲁棒性。通过标准回归基准测试和单目深度估计的高维回归任务进行了验证，得出了基于重尾分布的最大似然提供更好的不确定性估计，更好的超出分布数据的不确定性分离，以及在存在离群值的情况下更好的对抗性攻击检测等结论。

Abstract

We benchmark the robustness of maximum likelihood based uncertainty estimation methods to outliers in training data for →

maximum likelihood robustness outliers heavy-tailed distribution regression

发现论文，激发创造

揭示拉普拉斯近似用于不确定性估计的经验病理

本研究评估了贝叶斯方法在深度学习中用于不确定性估计的方法，重点关注广泛应用的 Laplace 近似及其变体。我们的研究发现，传统的拟合 Hessian 矩阵的方法对于处理超出分布的检测效率产生了负面影响。我们提出了一种不同的观点，认为仅关注优化先验精度可以在超出分布检测中产生更准确的不确定性估计，并保持适度的校准度。此外，我们证明了这种特性与模型的训练阶段无关，而是与其内在性质相关。通过广泛的实验评估，我们证实了我们简化方法在超出分布领域中优于传统方法的优越性。

Dec, 2023

鲁棒优化的统计学：一种广义经验似然方法

本文研究了基于经验似然和分布鲁棒解的方法进行随机优化问题的统计推断，特别关注最优值的置信区间和渐近达到精确覆盖的解决方案。我们提出了一个基于非参数 $f$- 分歧球构建的分布不确定性集合的广义经验似然框架，用于 Hadamard 可微函数和随机优化问题，从而提供了一个有原则的选择分布不确定性区域大小的方法，以实现达到精确覆盖的单侧和双侧置信区间。我们还给出了我们分布鲁棒的公式的渐近展开，表明如何通过方差来规范化问题。最后，我们证明了，我们研究的分布鲁棒公式的优化器具有与经典样本平均逼近中的优化器基本相同的一致性属性。我们的一般方法适用于快速混合的平稳序列，包括几何上遗传的 Harris 递归马尔科夫链。

Oct, 2016

用于稳健的长尾学习的数据流形的正交不确定性表示

在长尾分布的情景中，模型对尾部类别的识别能力受限于尾部样本的少量表示。本文提出了一种基于特征嵌入的正交不确定性表示方法（OUR）和端到端的训练策略，以改善模型的长尾现象。研究结果在长尾数据集上进行的综合评估表明，OUR 方法显著改善了模型的长尾现象，为其他长尾学习方法带来了一致的性能提升。

Oct, 2023

基于平均不确定性的鲁棒回归

我们提出了一种新的鲁棒回归的表述，通过整合不确定性集的所有实现并采用平均方法来获得普通最小二乘回归问题的最优解。我们证明了这个表述意外地恢复了岭回归，并在现有回归问题的鲁棒优化和均方误差方法之间建立了缺失的联系。我们首先证明了四种不确定性集的等价性：椭圆、盒子、钻石和预算，并提供了惩罚项的闭式表达方式，其是样本大小、特征大小以及扰动保护强度的函数。然后我们展示了在具有不同扰动水平的合成数据集中，平均表述比现有最坏情况表述在样本外性能上的一致改进。重要的是，随着扰动水平的增加，改进也增加，这证实了我们方法在高噪声环境中的优势。我们对从 UCI 数据集获得的真实回归问题的样本外数据集中报告了类似的改进。

Nov, 2023

高维广义线性模型中的鲁棒估计

该研究介绍了一种基于变换的确定性鲁棒初始估计方法及其对应的迭代加权最小二乘算法，用于解决存在异常值时基于最大似然估计的广义线性模型中初始估计不准确的问题。

Sep, 2017

高维重尾数据下的健壮回归：渐近性和普适性

我们研究了在协变量和响应函数都存在重尾污染的情况下，强鲁棒回归估计器的高维特性。尤其是，我们针对一族包括无二阶甚至更高阶矩不存在情况下的椭圆形协变量和噪声数据分布，提供了 M - 估计的锐性渐近特性描述。我们表明，尽管具有一致性，在存在重尾噪声的高维情形中，优化调整的 Huber 损失与位置参数 δ 是次优的，强调了需要进一步正则化以达到最佳性能的必要性。这个结果还揭示了 δ 作为样本复杂性和污染的函数的一个有趣的转变的存在。此外，我们导出了岭回归的超额风险的衰减速率。我们表明，对于有限二阶矩的噪声分布，岭回归虽然是最佳的且适用的，但当协变量的二阶矩不存在时，它的衰减速率可能会更快。最后，我们展示了我们的公式可以方便地推广到更丰富的模型和数据分布，如对混合模型的任意凸正则化训练的广义线性估计。

Sep, 2023

基于分位数最大似然训练的异常检测

通过量化分位数的最大似然目标为学习内点分布并改善稀有点分离，我们的方法使用训练好的判别特征适应一个标准化流，并根据评估的对数似然检测稀有点。通过实验评估，我们的方法表现优于现有的无监督方法，并与最近的自监督方法竞争。我们的工作能减少对充分负样本训练数据的依赖，尤其对医学诊断或遥感等领域具有重要意义。

Aug, 2023

使用退出一个样本最大对数似然目标稳定训练概率模型

基于数据驱动方法的概率建模用于电力系统运行和规划过程，需要充足的大型数据集。本文提出一种自适应的核密度估计模型，通过分配可学习的权重给核心实现了该模型的性能改进，同时使用修正的期望最大化算法加快优化速度，并通过和高斯混合模型的比较，表明所提出的模型具有良好的性能。

Oct, 2023

一种用于异常值检测的近似贝叶斯长短期记忆算法

本研究提出使用 Ensemble Kalman Filter 对神经网络权重的不确定性进行近似估计，结合最大似然估计优化噪声分布协方差，以应用于通过 Twitter 平台检测真实世界事件中的异常值。

Dec, 2017

面向数据驱动问题的似然鲁棒优化

本文提出了一种新型的分布鲁棒优化模型 —— 似然鲁棒优化模型，以历史数据为依据，用置信区间代替概率分布，解决了当环境不确定且输入分布未知的决策问题，避免了以往过于谨慎的方法对真实分布的偏离和对输出的限制。

Jul, 2013