具有相关数据的预测机器学习的精确和鲁棒的适应性推断方法
机器学习系统中风险量化与控制的研究,集中在处理 ML 系统收集自身数据时产生的数据分布变化问题,通过扩展 conformal prediction 理论以适应任意数据分布,并提出了针对特定数据分布的可行算法,以解决这一挑战。
May, 2024
本文提出一种新的针对预测模型的 Conformal prediction 泛化方法,通过引入加权分位数来抵御数据分布漂移的影响,同时设计一种新的随机化技术,允许不对称处理数据点的算法。实验表明,该方法在数据点不可交换的情况下具有较高的鲁棒性,并且在数据点可交换情况下达到了与现有方法相同的覆盖率保证。
Feb, 2022
本文提出了一种自适应的线上学习方法 - 自适应符合推断方法,该方法结合了预测集和符合推断的思想,能够在任何黑箱模型中实现长时间内预期的覆盖概率,从而解决了数据变化扰动的问题。
Jun, 2021
本文提出了基于顺应性推断的无分布预测推断的一般框架,并通过分析和比较其两个主要变体:完整顺应性推断和分裂顺应性推断以及相关的 jackknife 法,作出了在统计准确度和计算效率之间的不同权衡。与此同时,本文还发展了一种构建有效样本内预测间隔的方法,称为 “排名为一” 的顺应性推断。本文提出的所有提案的实施都可以使用 R 包 “conformalInference” 进行。
Apr, 2016
本文提出了一种新颖的使用具有时间序列分解的符合预测时间序列预测方法,在每个分量上应用特定的符合算法,然后合并所得预测区间,以适应不同分量之间的不同可交换性情况。该分解方法在合成和现实数据上进行了详细讨论和经验评估,发现该方法对结构良好的时间序列提供了有希望的结果,但在处理较复杂数据时,受到分解步骤等因素的限制。
Jun, 2024
我们开发了一种方法,用于生成预测集,其覆盖率在训练数据中存在缺失或噪声变量等损坏情况下是健壮的。我们的方法基于符合性预测,这是一种强大的框架,用于构建在独立同分布假设下有效的预测集。重要的是,简单地应用符合性预测在这种情况下不能提供可靠的预测,因为由损坏引起的分布偏移。为了考虑到分布偏移,我们假设可以访问特权信息(PI)。特权信息被形式化为解释分布偏移的附加特征,然而,它们仅在训练期间可用,在测试时不可用。我们通过引入一种新的加权符合性预测的广义方法来解决这个问题,并支持我们的方法具有理论上的覆盖率保证。在真实数据集和合成数据集上的实证实验表明,我们的方法实现了有效的覆盖率,并构建了比现有方法更具信息性的预测,这些方法不受理论保证支持。
Jun, 2024
介绍了针对政策评估的反事实和合成控制方法的新推断过程。将因果推理问题重新表述为反事实预测和结构性断裂检验问题,并开发置换推断过程以适应现代高维度估计器,能在弱和易验证的条件下有效地进行,并证明了对错误说明的稳健性。本方法可以与许多不同的方法结合使用,用于在没有政策干预的情况下预测反事实均值结果。我们的方法在模拟中表现出优秀的小样本性能,并进行数据应用,重新评估取消室内卖淫的后果。
Dec, 2017
本文通过比较两种新提出的置信推断和分位数回归思想相结合的方法,并考虑在样本交换性下如何产生局部自适应和边缘有效的预测区间,证明当一些额外的假定满足时,这两种方法在大样本下是渐进有效的,同时在模拟和真实数据中进行实证比较,结果表明相对于 Kivaranovic 等人 (2019) 的方法,Romano 等人 (2019) 的方法在有限样本中通常产生更紧的预测区间,并最后讨论了如何通过调整用于训练和适应性的相对比例来调整这些程序。
Sep, 2019