超越规范:检测回归模型中的预测误差
本文提出了一种新的针对回归任务中不确定性预测校准的方法和评估方法,并通过对合成问题和对COCO和KITTI数据集的物体检测边界框回归任务的实验验证,展示出基于直方图的聚类方法和基于缩放的校准方法的效果相当好。
May, 2019
本文提出了一个新的正则化的自适应tau-Lasso估计器,用于分析响应变量和协变量受到强烈污染的高维数据集,能够同时使用自适应L1范数惩罚项降低大真实回归系数与降低偏差的关联性,具有良好的鲁棒性和可靠性,表现比同类估计器更好或接近最佳,特别是在污染数据和期望回归矩阵/响应向量的情况下。同时也在探索鲁棒性质方面进行了验证。
Apr, 2023
在数据中加入噪声,可以使用任何回归器模型来判断哪些数据值是错误的,该方法可以在数据集中区分真正的异常和自然数据波动,并且可以比传统方法更好地诊断真实的数据集。
May, 2023
本文提出了一种基于因果性的分布鲁棒性方法,命名为分布鲁棒性通过不变梯度(DRIG),通过利用训练数据中的一般加性干预来实现对未见干预的鲁棒预测,自然地在分布预测和因果性之间插值。在线性设置中,证明DRIG在数据相关的一类分布转换中得到鲁棒的预测。此外,还扩展了该方法到半监督领域适应设置以进一步提高预测性能。最后,通过合成模拟和单细胞数据对我们的方法进行了实证验证。
Jul, 2023
我们提出了一种新的鲁棒回归的表述,通过整合不确定性集的所有实现并采用平均方法来获得普通最小二乘回归问题的最优解。我们证明了这个表述意外地恢复了岭回归,并在现有回归问题的鲁棒优化和均方误差方法之间建立了缺失的联系。我们首先证明了四种不确定性集的等价性:椭圆、盒子、钻石和预算,并提供了惩罚项的闭式表达方式,其是样本大小、特征大小以及扰动保护强度的函数。然后我们展示了在具有不同扰动水平的合成数据集中,平均表述比现有最坏情况表述在样本外性能上的一致改进。重要的是,随着扰动水平的增加,改进也增加,这证实了我们方法在高噪声环境中的优势。我们对从UCI数据集获得的真实回归问题的样本外数据集中报告了类似的改进。
Nov, 2023
前向论合理化了模型的泛化错误上界,为学习提供了健壮的PAC-Bayes边界。然而,已知损失的最小化会忽略错误规范化,在此情况下模型无法完全复现观测结果。我们分析了近确定、错误规范化和欠参数化替代模型的泛化错误,这是科学和工程中广泛相关的一种情况。我们证明了后验分布必须覆盖每个训练点以避免泛化错误的发散,并导出了一种满足此约束条件的集合假设,对线性模型而言额外开销最小。这种高效方法在模型问题上得到了证明,并应用于原子尺度机器学习中的高维数据集,由错误规范化导致的参数不确定性在欠参数化极限中仍然存在,从而可以准确预测和限定测试误差的上限。
Feb, 2024
在部署机器人或其他物理系统上的深度神经网络时,可靠地量化预测不确定性以允许下游模块对其行为的安全性进行推理至关重要。本文研究了评估这种不确定性的度量标准,具体关注回归任务,并调查了 Sparsification Error 下面积 (AUSE)、校准误差、Spearman 排名相关性和负对数似然度量。通过使用合成回归数据集,我们研究了这些度量标准在四种典型的不确定性下的行为方式,以及它们对测试集大小的稳定性,并揭示了它们的优势和劣势。结果表明,校准误差是最稳定和可解释性的度量标准,但是 AUSE 和负对数似然度量也有各自的适用场景。我们不建议使用 Spearman 排名相关性来评估不确定性,建议用 AUSE 替代。
May, 2024
通过定义回归任务中的鲁棒性,灵活地通过概率,我们展示了如何为用户指定的观察到有效输出的概率建立输入数据点扰动(使用$l_2$范数)的上界。我们还展示了在回归模型无约束操作的情况下,基本的平均函数的渐近特性。在处理输出有界的回归模型族时,我们导出了输入扰动的认证上界。我们的模拟验证了理论结果的有效性,并揭示了简单平滑函数(例如平均)在回归任务中的优势和局限性。
May, 2024
本文从整合的角度探讨了回归中的稳健性,具体研究了传统抗干扰的稳健估计和对虚拟数据集扰动具有抗性的稳健优化之间的关系,并指出它们存在偏差-方差的权衡问题。
Jul, 2024