协变量漂移下的稳健公平性
在测试数据中的协变量偏移可以显著降低模型的准确性和公平性表现。我们提出了一种基于加权熵的预测准确性目标和表示匹配损失的新型组合目标函数,通过实验证明了我们的损失函数优化在公平性与准确性的权衡上优于其他基线方法。我们还提出了一种称为不对称协变量偏移的新颖设置,并展示了我们的方法在这种设置下的显著优势。最后,我们理论上证明了在训练集上的加权熵项和预测损失可以近似于协变量偏移时的测试损失。我们通过实验证明了这种对未见测试损失的近似不依赖于影响其他基线方法的重要性采样方差。
Oct, 2023
基于领域偏移的普适分类器归纳问题几乎困难且复杂,本文通过引入三种不同的分布偏移(概念偏移、协变量偏移和依赖性偏移),提出了一种新颖的领域泛化方法,能够在不同领域中保持模型的准确性和公平性。实验结果表明,该方法在四个基准数据集上超越了现有的方法。
Nov, 2023
本文提出了一种解决模型公平性中的相关性变化问题的新颖方法,即引入相关性偏移的概念和采用预处理步骤以减少相关性偏移,并借此通过优化问题来调整数据比率,从而使得数据处理算法可以有效地提高其准确性和公平性。
Feb, 2023
监督的公平感知机器学习在面临数据分布从源领域到目标领域的变化时,是一个新兴的领域,解决了在实现公正和无偏预测方面的挑战。本综述提供各种类型的分布变化的总结,并全面调查了现有方法,重点介绍了文献中常用的六种方法。此外,本综述列出了可用于经验研究的公开数据集和评估指标。我们进一步探讨了与相关研究领域的相互连接,讨论了重大挑战,并确定了未来研究的潜在方向。
Feb, 2024
本文研究了机器学习中的一个重要研究主题:协变量转移。我们表明这个领域的方法都可以归为信息几何的范畴,并且我们提出的方法可以更高效地进行参数搜索和更好地适应数据,结果比现有方法好。
Apr, 2023
本文研究了异变转移对传统机器学习模型性能的影响,通过对概率密度函数域的区域进行分类器性能评估,发现在二维分类问题中,随机森林算法表现最好,在高维实验中,模型主要受到分类函数复杂度的影响,对高密度区域呈现出高偏差的性质。
Apr, 2023
本文提出了一种算法,用于校准模型预测并考虑协变量转移的情况,采用重要性加权法纠正训练分布与实际分布的差异,并通过领域适应的方法实现两个分布尽可能一致, 实证结果表明,该方法在存在协变量转移时优于现有的校准方法。
Feb, 2020
本文探究了在分类上,当协变量发生变化时,简单的预先估计方法是不可行的,因为降低协变量的信息量会导致与源和目标分布之间的关系失去恒定性。我们证明了在统计意义上,保留协变量变化特性的协变量变换对于所有协变量是必要的,同时提出了一种另类的探究算法来应对协变量变化下的类先验估计问题。
Jun, 2022