测试基准和生产数据之间上下文变化的识别
本文扩展了 Shifts 数据集,加入了两个来源于高风险工业应用的数据集,用于探索模型的鲁棒性和不确定性估计。新数据集包括 3D 磁共振脑图像中白质多发性硬化病变的分割和船舶功耗的估计,具有普遍分布转移和严格的安全要求。
Jun, 2022
本研究提出了 MetaShift—— 一个覆盖 410 个类别的 12,868 个自然图像的集合 —— 旨在通过对自然异质性的利用来对抗数据分布的变化与转移,并提出了关于不同数据集之间的独特性的显式解释以及度量分数。通过 MetaShift 的实验结果表明,当分布转移不是很大时,简单的经验风险最小化方法最佳;而在大的分布转移情况下,没有任何一种方法具有显著的优势。MetaShift 还可以帮助可视化模型训练过程中不同数据子集之间的冲突。
Feb, 2022
通过提出一套可解释性方法对比两个数据集,我们展示了这种方法在各种数据模式下的多功能性,不仅在解释质量和正确性方面优于相关方法,而且能够提供行动性的、互补的见解来有效理解和减轻数据集的差异。
Mar, 2024
本文证明了在大尺度图像分类基准测试中,最新的提出的模型虽然其准确性相异,但其预测相似性很高,这一相似性缓解了过拟合问题。作者还根据这一相似性给出了一种新的泛化界限的数学模型,能够更好地应用于机器学习中测试数据的重复使用问题。
May, 2019
以大量分类问题为基础,对现有现代机器学习方法中不同的贝叶斯和非贝叶斯概率量化预测不确定性的方法进行了评估,发现一些基于模型边缘化的方法在广泛的任务领域内表现出令人惊讶的强大效果。
Jun, 2019
通过人工研究这项工作研究了采用众包数据收集管道构建丰富的机器学习数据集的后果,重点关注了流行的 ImageNet 数据集,在 ImageNet 创建过程中特定的设计选择如何影响所得到的数据集的保真度,以及噪声数据收集管道如何导致所得基准与其代理真实世界任务之间存在系统性偏差。最后,发现需要扩充我们的模型培训和评估工具包,以考虑这种不对齐现象。
May, 2020
本文研究各机器学习子社区在 2015-2020 年期间数据集使用模式的差异,并发现技术社区对越来越少的数据集集中使用,大量采用来自其他任务的数据集,并集中于由少数精英机构研究者推出的数据集,从而对科学评估、人工智能伦理和公平性、以及领域内的平等 / 可接近性产生影响。
Dec, 2021