本文探讨机器学习系统在面对各类输入时,如何通过检测数据集漂移并量化其恶性,从而建立高鲁棒性的系统,同时提出使用预训练分类器的双样本测试法在多种数据集漂移情况下表现最佳,且判别方法有助于定性确定数据集漂移的影响。
Oct, 2018
在机器学习任务中,分布偏移是一种常见情况,其表示训练模型使用的数据与实际应用模型的数据不同。本文旨在定义和检测教育环境中的分布偏移,关注标准预测问题,即学习一个以输入序列为输入(预测变量)X=(x_1,x_2,...,x_m) 并生成输出 Y=f (X) 的模型。
May, 2024
本文扩展了 Shifts 数据集,加入了两个来源于高风险工业应用的数据集,用于探索模型的鲁棒性和不确定性估计。新数据集包括 3D 磁共振脑图像中白质多发性硬化病变的分割和船舶功耗的估计,具有普遍分布转移和严格的安全要求。
Jun, 2022
利用对抗性学习的原则,结合主流的监督分类器和简单迭代启发式方法,本研究探索了利用多个辨别器的信息来检测和修复数据集之间特征变化,以消除特征变化所带来的分布偏移,优于当前的统计和神经网络技术。
Dec, 2023
本研究提出了一种框架来分析各种分布转移,并通过评估 19 个不同类别的方法,提供了当前最先进方法的整体分析。结果显示,与标准 ERM 基线相比,预训练和数据扩充(学习或启发式)在许多情况下都具有很大的优势,但不能很好地适应不同的数据集和转移。
Oct, 2021
本文针对分布转移对深度学习模型性能和可靠性的影响,研究了两种类型的分布转移:多样性转移和相关性转移,并提出了一种综合协议来分析这两种转移。应用我们的方法到一个真实的皮肤癌分类问题,最终有三个发现:模型在低偏差情况下仍学习和传播与转移相关的内容;模型学习了强健的特征但仍使用其他的特征;多样性转移可以降低偏差模型对于与转移相关的特征的依赖性。
May, 2023
监督的公平感知机器学习在面临数据分布从源领域到目标领域的变化时,是一个新兴的领域,解决了在实现公正和无偏预测方面的挑战。本综述提供各种类型的分布变化的总结,并全面调查了现有方法,重点介绍了文献中常用的六种方法。此外,本综述列出了可用于经验研究的公开数据集和评估指标。我们进一步探讨了与相关研究领域的相互连接,讨论了重大挑战,并确定了未来研究的潜在方向。
Feb, 2024
本研究探讨在数据分布漂移时,机器学习模型的预测性能和模型解释特征如何受影响,以及这些关键指标如何相互关联,发现模型解释任务的建模是检测预测性能变化的更好指标。
Oct, 2022
以大量分类问题为基础,对现有现代机器学习方法中不同的贝叶斯和非贝叶斯概率量化预测不确定性的方法进行了评估,发现一些基于模型边缘化的方法在广泛的任务领域内表现出令人惊讶的强大效果。
Jun, 2019
本研究提出了 Shifts 数据集,用于评估不确定性预测和对分布偏移的鲁棒性,并提供了基线结果和任务描述。
Jul, 2021