测试基准和生产数据之间上下文变化的识别

Jul, 2022

测试基准和生产数据之间上下文变化的识别

Identifying the Context Shift between Test Benchmarks and Production Data

Matthew Groh

TL;DR研究探讨了机器学习模型在生产数据上的脆弱性，并提出了上下文偏移的概念，探讨了三种应对上下文偏移的方法：人类直觉和专业知识辅助建模，动态基准测试提高泛化能力，提高模型的透明度，文章还通过人脸表情识别、深度伪造检测和医学诊断等三个领域对模型偏差的隐含假设进行了探讨。

Abstract

machine learning models are often brittle on production data despite achieving high accuracy on benchmark datasets. Benchmark datasets have traditionally served dual purposes: first, benchmarks offer a standard on which

machine learning context shift robustness dynamic benchmarking generalizability

发现论文，激发创造

机器学习模型在实际中的稳健性、评估与适应性

通过培训算法来提高对于机器学习领域的可靠性，从而应对领域的变化，提高算法的性能，预测其表现并轻量级适应应用领域。

Mar, 2023

Shifts 2.0：扩展实际分布漂移数据集

本文扩展了 Shifts 数据集，加入了两个来源于高风险工业应用的数据集，用于探索模型的鲁棒性和不确定性估计。新数据集包括 3D 磁共振脑图像中白质多发性硬化病变的分割和船舶功耗的估计，具有普遍分布转移和严格的安全要求。

Jun, 2022

MetaShift：用于评估上下文分布变化和训练冲突的数据集合集

本研究提出了 MetaShift—— 一个覆盖 410 个类别的 12,868 个自然图像的集合 —— 旨在通过对自然异质性的利用来对抗数据分布的变化与转移，并提出了关于不同数据集之间的独特性的显式解释以及度量分数。通过 MetaShift 的实验结果表明，当分布转移不是很大时，简单的经验风险最小化方法最佳；而在大的分布转移情况下，没有任何一种方法具有显著的优势。MetaShift 还可以帮助可视化模型训练过程中不同数据子集之间的冲突。

Feb, 2022

这些数据集之间有何不同？

通过提出一套可解释性方法对比两个数据集，我们展示了这种方法在各种数据模式下的多功能性，不仅在解释质量和正确性方面优于相关方法，而且能够提供行动性的、互补的见解来有效理解和减轻数据集的差异。

Mar, 2024

数据集转化诊断的统一框架

介绍了使用统一框架来检测数据移位类型并量化其强度，以便改进预测方法，可用于分类和回归任务。

May, 2022

模型相似性降低测试集过度使用

本文证明了在大尺度图像分类基准测试中，最新的提出的模型虽然其准确性相异，但其预测相似性很高，这一相似性缓解了过拟合问题。作者还根据这一相似性给出了一种新的泛化界限的数学模型，能够更好地应用于机器学习中测试数据的重复使用问题。

May, 2019

评估数据集偏移下模型预测不确定性的可信度

以大量分类问题为基础，对现有现代机器学习方法中不同的贝叶斯和非贝叶斯概率量化预测不确定性的方法进行了评估，发现一些基于模型边缘化的方法在广泛的任务领域内表现出令人惊讶的强大效果。

Jun, 2019

从 ImageNet 到图像分类：基准测试上的进展与语境

通过人工研究这项工作研究了采用众包数据收集管道构建丰富的机器学习数据集的后果，重点关注了流行的 ImageNet 数据集，在 ImageNet 创建过程中特定的设计选择如何影响所得到的数据集的保真度，以及噪声数据收集管道如何导致所得基准与其代理真实世界任务之间存在系统性偏差。最后，发现需要扩充我们的模型培训和评估工具包，以考虑这种不对齐现象。

May, 2020

机器学习研究中数据集的生命周期：减少、重复利用和循环利用

本文研究各机器学习子社区在 2015-2020 年期间数据集使用模式的差异，并发现技术社区对越来越少的数据集集中使用，大量采用来自其他任务的数据集，并集中于由少数精英机构研究者推出的数据集，从而对科学评估、人工智能伦理和公平性、以及领域内的平等 / 可接近性产生影响。

Dec, 2021

Shifts: 多个大规模任务中的真实分布转移数据集

本研究提出了 Shifts 数据集，用于评估不确定性预测和对分布偏移的鲁棒性，并提供了基线结果和任务描述。

Jul, 2021