数据集难度与归纳偏差的作用

Jan, 2024

Dataset Difficulty and the Role of Inductive Bias

Devin Kwok, Nikhil Anand, Jonathan Frankle, Gintare Karolina Dziugaite, David Rolnick

TL;DR通过对随机和受控因素的比较，我们发现例子排名在不同的训练运行、评分方法和模型架构间存在很大的一致性。同时，我们还开发了一种简单的方法来使用一些敏感的例子对模型架构进行指纹识别。这些发现指导从业者在最大化评分一致性方面（例如通过选择适当的评分方法、运行次数和例子子集）并为将来评估评分建立全面的基准。

Abstract

Motivated by the goals of dataset pruning and defect identification, a growing body of methods have been developed to score individual examples within a dataset. These methods, which we call "→

dataset pruning defect identification example difficulty scores example rankings model architectures

发现论文，激发创造

从示例难度的角度看深度学习

本研究采用基于个例角度的视角，引入了计算预测输入的困难程度的度量 -（有效的）预测深度，发现了一些有意为之而意外的、简单的关系，进一步将困难例子分为三个可解释的组，并展示了这种理解如何提高了预测准确率，揭示了文献中一些分开探讨的现象的连贯视图。

Jun, 2021

样本学习一致性可预测性研究

本文研究如何通过训练模型来预测 CIFAR-100 和 CIFAR-10 的难度得分，发现 C-Score 难以泛化到其他数据集，因此提出基于样本关系的假设，希望在进一步的工作中探索。

Jul, 2022

硬度样本需量化以建立可靠的评估系统：探索新任务的潜在机会

通过给基准数据集中的未注释样本打分，我们提出了一种模型评估方法，用语义文本相似性评估该任务的基于难度的分数，比单纯的评估模型性能更准确，可以避免潜在的偏差以及更广泛的应用。

Oct, 2022

基于应用数据集特征的轻量级分类难度度量

通过提出的分类困难度度量方法，可以在进行一次模型家族的训练和测试后，通过比较难度度量来预测不同数据集和相同家族模型的相对性能，为小型数据集选择计算效率高的模型比重复训练和测试快 6 至 29 倍。

Apr, 2024

数据选择的熵和边缘得分指标的全面基准评估

在工业规模的环境中，特别是在资源有限的语言中，我们通过熵和 EL2N 评分来评估潜在的训练样本的 “有用性” 或 “难度”，并展示了如何使用这些度量来选择用于训练监督机器学习模型的重要样本。我们使用这些度量从大量的 “弱信号标记” 数据中筛选高质量的数据集，然后进行以评分为基础的选择来增强训练数据实验，与随机选择的基线技术相比，结果显示了语义错误率下降 2% 和领域分类错误率下降 4%-7%。

Nov, 2023

模型无关的泛化困难度度量

该研究提出了第一个与模型无关的任务内在泛化难度度量，称为归纳偏差复杂度度量，该度量可以应用于计算和比较监督学习、增强学习和元学习的泛化难度。

May, 2023

让模型为多任务学习决定其课程

通过基于模型的方法计算难度分数，将训练实例分成两个类别：数据集层次和实例层次。通过实验，发现难度分数分别为实例层次和数据集层次，相对于各自的基线，平均性能提高了 4.17％和 3.15％，并且大多数的提高来自于正确应对困难实例，这个策略具有更好的效力。

May, 2022

通过考察测试集难度理解深度学习性能：一项心理测量案例研究

研究了深度学习模型性能评估中忽略的数据点特征和难度对测试集准确性的影响，通过用已有的心理测量学方法对人类的反应模式进行建模来估计难度，实验结果发现难度对于测试的结果有重要影响，同时易于学习的实例被模型学得更快。

Feb, 2017

机器学习中的分布密度、尾部和异常值：指标和应用

提出了一种度量给定数据集中某个训练或测试实例在概率分布中的离群程度的技术，并使用五种不同的定义 “well-represented” 方法对四个常见数据集进行了评估，发现这些方法高度相关，可以用于识别样本，在课程学习中改进排序并提高鲁棒性。

Oct, 2019

硬件感知深度级联嵌入

本篇论文提出了一种基于深度验证网络和模型集成的图像分类方法，通过自适应筛选样本并训练带有不同复杂度的模型，解决了大样本分类中的难例挖掘问题，相较于现有方法，该方法在多个数据集上有着更高的分类准确率。

Nov, 2016