数据集转化诊断的统一框架

May, 2022

A unified framework for dataset shift diagnostics

Felipe Maia Polo, Rafael Izbicki, Evanildo Gomes Lacerda Jr, Juan Pablo Ibieta-Jimenez, Renato Vicente

TL;DR介绍了使用统一框架来检测数据移位类型并量化其强度，以便改进预测方法，可用于分类和回归任务。

Abstract

Most machine learning (ML) methods assume that the data used in the training phase comes from the target population. However, in practice one often faces dataset shift, which, if not properly taken into account,

machine learning dataset shift transfer learning hypothesis tests predictive performance

发现论文，激发创造

响亮地失败：检测数据集漂移方法的实证研究

本文探讨机器学习系统在面对各类输入时，如何通过检测数据集漂移并量化其恶性，从而建立高鲁棒性的系统，同时提出使用预训练分类器的双样本测试法在多种数据集漂移情况下表现最佳，且判别方法有助于定性确定数据集漂移的影响。

Oct, 2018

公正中心技术简报：分布偏移的定义和检测

在机器学习任务中，分布偏移是一种常见情况，其表示训练模型使用的数据与实际应用模型的数据不同。本文旨在定义和检测教育环境中的分布偏移，关注标准预测问题，即学习一个以输入序列为输入（预测变量）X=(x_1,x_2,...,x_m) 并生成输出 Y=f (X) 的模型。

May, 2024

Shifts 2.0：扩展实际分布漂移数据集

本文扩展了 Shifts 数据集，加入了两个来源于高风险工业应用的数据集，用于探索模型的鲁棒性和不确定性估计。新数据集包括 3D 磁共振脑图像中白质多发性硬化病变的分割和船舶功耗的估计，具有普遍分布转移和严格的安全要求。

Jun, 2022

特征偏移检测与校正的对抗学习

利用对抗性学习的原则，结合主流的监督分类器和简单迭代启发式方法，本研究探索了利用多个辨别器的信息来检测和修复数据集之间特征变化，以消除特征变化所带来的分布偏移，优于当前的统计和神经网络技术。

Dec, 2023

分布偏移的细粒度分析

本研究提出了一种框架来分析各种分布转移，并通过评估 19 个不同类别的方法，提供了当前最先进方法的整体分析。结果显示，与标准 ERM 基线相比，预训练和数据扩充（学习或启发式）在许多情况下都具有很大的优势，但不能很好地适应不同的数据集和转移。

Oct, 2021

即使是微小的相关性和多样性变化也会导致数据集偏差问题

本文针对分布转移对深度学习模型性能和可靠性的影响，研究了两种类型的分布转移：多样性转移和相关性转移，并提出了一种综合协议来分析这两种转移。应用我们的方法到一个真实的皮肤癌分类问题，最终有三个发现：模型在低偏差情况下仍学习和传播与转移相关的内容；模型学习了强健的特征但仍使用其他的特征；多样性转移可以降低偏差模型对于与转移相关的特征的依赖性。

May, 2023

分布转移下的监督算法公平性：一项综述

监督的公平感知机器学习在面临数据分布从源领域到目标领域的变化时，是一个新兴的领域，解决了在实现公正和无偏预测方面的挑战。本综述提供各种类型的分布变化的总结，并全面调查了现有方法，重点介绍了文献中常用的六种方法。此外，本综述列出了可用于经验研究的公开数据集和评估指标。我们进一步探讨了与相关研究领域的相互连接，讨论了重大挑战，并确定了未来研究的潜在方向。

Feb, 2024

通过解释空间检测基于表格数据的分布转移

本研究探讨在数据分布漂移时，机器学习模型的预测性能和模型解释特征如何受影响，以及这些关键指标如何相互关联，发现模型解释任务的建模是检测预测性能变化的更好指标。

Oct, 2022

评估数据集偏移下模型预测不确定性的可信度

以大量分类问题为基础，对现有现代机器学习方法中不同的贝叶斯和非贝叶斯概率量化预测不确定性的方法进行了评估，发现一些基于模型边缘化的方法在广泛的任务领域内表现出令人惊讶的强大效果。

Jun, 2019

Shifts: 多个大规模任务中的真实分布转移数据集

本研究提出了 Shifts 数据集，用于评估不确定性预测和对分布偏移的鲁棒性，并提供了基线结果和任务描述。

Jul, 2021