数据集多样性问题：不可靠数据如何影响预测

Apr, 2023

数据集多样性问题：不可靠数据如何影响预测

The Dataset Multiplicity Problem: How Unreliable Data Impacts Predictions

Anna P. Meyer, Aws Albarghouthi, Loris D'Antoni

TL;DR介绍了一种名为 “数据集多样性” 的框架，用于研究训练数据集中的不准确性、不确定性和社会偏见如何影响测试时间的预测，以及该框架在机器学习实践和研究中的考虑。

Abstract

We introduce dataset multiplicity, a way to study how inaccuracies, uncertainty, and social bias in training datasets impact →

dataset multiplicity social bias uncertainty test-time predictions machine learning

发现论文，激发创造

评估数据集偏移下模型预测不确定性的可信度

以大量分类问题为基础，对现有现代机器学习方法中不同的贝叶斯和非贝叶斯概率量化预测不确定性的方法进行了评估，发现一些基于模型边缘化的方法在广泛的任务领域内表现出令人惊讶的强大效果。

Jun, 2019

探索自然语言处理中的预测不确定性和校准：对方法和数据稀缺性影响的研究

研究在从低资源语言中采样的数据集上训练模型的情况下，通过多种方法评估和分析神经分类器的预测置信度，发现尽管使用预训练模型和集成模型可以获得最佳结果，但数据集规模增大时不确定性估计的质量可能会受到影响。对序列不确定性进行了定性分析，发现模型的总不确定性在很大程度上受到数据不确定性的影响，并提供了开源的软件包。

Oct, 2022

不可靠新闻检测数据集中的隐性偏见

本文研究了自动检测不可靠新闻的问题和如何创建更可靠的数据集，发现大规模新闻数据集存在选择性偏差和混淆因素，导致模型的表现不稳定，提出了创建更可靠的数据集的建议。

Apr, 2021

基准透明度：测量数据对评估的影响

本文提出了一个自动化框架来测量数据分布对自然语言处理模型性能和评估的影响，并通过两组实验表明数据的分布对评估具有统计学上的重要性，并且可预测模型的泛化能力。

Mar, 2024

再三思考：衡量消除问答模型预测快捷方式的效率

本文提出一种简单的方法，用于评估预训练模型在特定 spurious feature 上的依赖程度并评估各种预训练模型和去偏见方法在问答 (QA) 中对大量已知和新发现偏差的鲁棒性，发现去偏见方法的 OOD 收益不能通过减少对偏见特征的依赖来解释，我们进一步通过测量 OOD 模型的性能表明其依赖于偏见特征，这表明 QA 数据集中存在共享的偏见，同时也需要进一步的工作来提高 LLM 鲁棒性的报告水平。

May, 2023

揭开机器学习驱动科学中的过度乐观和出版偏见

通过研究机器学习中的数据泄露和出版偏见等因素，本研究提出了一种新颖的随机模型来估计真实准确性，并纠正了过度乐观的诊断结果，从而提供了更真实的机器学习性能评估。

May, 2024

数据反馈环路：基于模型驱动的数据集偏差放大

本文旨在通过记录模型与数据的交互过程，以改善未来爬取的 Internet 数据集的信息稳定性。我们发现模型输出表现为源自训练集的样本具有一致性校准时，偏见放大的程度与模型预测的性别偏差等测试时偏差统计显著相关，如果同时在三个条件预测场景中使用，能更好的校准和稳固反馈系统。

Sep, 2022

稳健验证：即使分布发生偏移，也能自信地做出预测

本文提出了一种建立在鲁棒性预测推断上的不确定性估计模型，使用 conformal inference 方法建立了准确覆盖测试数据分布的预测集，通过估计数据漂移量建立了鲁棒性，并在多个基准数据集上进行了实验证明了该方法的重要性。

Aug, 2020

统计数据集评估：可靠性，难度和有效性

本论文提出了一个模型不可知的数据集评估框架，通过基于经典测试理论的统计分析，评估数据集的可靠性、难度和有效性等三个基本维度，并以命名实体识别为案例研究，介绍了 9 个统计指标用于评估数据集的质量，实验结果和人工评估验证了该框架的有效性，发现数据集质量对模型绩效有显著影响，因此在模型训练或测试前应进行数据集质量评估或针对性的数据集改进。

Dec, 2022

使用混合容量模型集成学习模型和排除数据集置偏

本文提出了一种检测和忽略数据集特异性模式的方法，采用高低容量模型的集成训练，以自动捕捉相对浅层的相关性，并确保两个模型学习不重叠的方法，以利于更好地泛化模式。

Nov, 2020