类分布估计的不变性假设

Nov, 2023

Invariance assumptions for class distribution estimation

Dirk Tasche

TL;DR我们研究了在数据集偏移下的类别分布估计问题，讨论了协变量转移、可因子化联合转移和稀疏联合转移的假设及其对类别分布估计的影响。

Abstract

We study the problem of class distribution estimation under dataset shift. On the training dataset, both features and →

发现论文，激发创造

通过考虑协变量变化，提出了一种对于未知数据能够保持公正与性能的预测模型的方法。

Oct, 2020

本文探究了在分类上，当协变量发生变化时，简单的预先估计方法是不可行的，因为降低协变量的信息量会导致与源和目标分布之间的关系失去恒定性。我们证明了在统计意义上，保留协变量变化特性的协变量变换对于所有协变量是必要的，同时提出了一种另类的探究算法来应对协变量变化下的类先验估计问题。

Jun, 2022

该文研究了机器学习模型在遇到新的用户数据时，如何估计模型的性能，提出了一种新的分布偏移模型 SJS 和算法框架 SEES，实验结果表明 SEES 在各种数据集和分布偏移情况下，相比现有方法，均能显著提高分布偏移误差的估计精度。

Sep, 2022

训练模型以适应由类先验或群组先验的分布变化引起的偏移问题并不容易，我们提出一种极其轻量级的事后方法，通过在验证集上求解约束优化问题并应用于模型，从而在测试时尽量减小选定目标分布周围的分布鲁棒性损失，并带有可证明的保证和实证的结果证明，表明我们的方法非常适用于分布鲁棒的事后分类器。

Sep, 2023

本文提出了一种建立在鲁棒性预测推断上的不确定性估计模型，使用 conformal inference 方法建立了准确覆盖测试数据分布的预测集，通过估计数据漂移量建立了鲁棒性，并在多个基准数据集上进行了实验证明了该方法的重要性。

Aug, 2020

在分布转移理论中，通过采用不变风险最小化（IRM）类似的假设连接分布，研究源分布到目标分布的分类器，揭示了源分布数据足够准确分类目标的条件，并讨论了在这些条件不满足时，只需目标的无标签数据或标记目标数据的情况，并提供了严格的理论保证。

May, 2024

本篇论文研究机器学习模型在不同测试分布的情况下表现不佳且过度估计它们的表现的问题，并提出一种基于领域不变性预测模型的方法来更好地估计模型在转移学习领域的性能，从而实现了领域自适应和对给定模型在分布转移情况下进行准确的目标误差估计，并可以用于模型选择、决定早期停机和错误检测。

Jul, 2020

本文提出了一种自适应的线上学习方法 - 自适应符合推断方法，该方法结合了预测集和符合推断的思想，能够在任何黑箱模型中实现长时间内预期的覆盖概率，从而解决了数据变化扰动的问题。

Jun, 2021

该论文探讨了如何绕过测试分布的要求以训练分布转换器，并在多领域和单一领域的广义数据集上进行了实验。他们提出了一种便携式的分布漂移反演算法，通过线性组合附加高斯噪声并使用仅在源分布上进行训练的扩散模型将 OoD 测试样本转移到训练分布中。

Jun, 2023

本文介绍了在分布偏移下的统计检验，提出了一种通过重新采样构建辅助数据集的一般化检验方法，可用于处理强化学习和因果推断等多个领域的问题。

May, 2021