遗传数据测量：理解文本分类任务的难度

Nov, 2018

遗传数据测量：理解文本分类任务的难度

Evolutionary Data Measures: Understanding the Difficulty of Text Classification Tasks

Edward Collins, Nikolai Rozanov, Bingbing Zhang

TL;DR通过对 78 个现实世界数据集的训练与分析，本研究提出了一种简单易行的衡量文本分类数据集难度的方法，并且此方法适用于不同类型的数据集，可以用于提高模型的性能。

Abstract

Classification tasks are usually analysed and improved through new model architectures or hyperparameter optimisation but the underlying properties of datasets are discovered on an ad-hoc basis as errors occur. However, understanding the properties of the data is crucial in perfecting models. In this paper we analyse exactly which characteristics of a datase

text classification dataset analysis difficulty measure model performance

发现论文，激发创造

基于应用数据集特征的轻量级分类难度度量

通过提出的分类困难度度量方法，可以在进行一次模型家族的训练和测试后，通过比较难度度量来预测不同数据集和相同家族模型的相对性能，为小型数据集选择计算效率高的模型比重复训练和测试快 6 至 29 倍。

Apr, 2024

识别语义困难样本以提高文本分类能力

本文探讨在给定文本数据集中如何处理难以分类的样本对于下游文本分类任务的影响，并通过语义嵌入空间分析将难度样本定义为在文本分类中不明显的情况，通过提出惩罚函数来获得每个样本的难度得分，并在 13 个标准数据集上进行全面的实验，得出了最多 9％的一致性提升，并讨论了定量结果，以展示我们的方法在识别文本分类模型难度样本方面的有效性。

Feb, 2023

模型无关的泛化困难度度量

该研究提出了第一个与模型无关的任务内在泛化难度度量，称为归纳偏差复杂度度量，该度量可以应用于计算和比较监督学习、增强学习和元学习的泛化难度。

May, 2023

通过考察测试集难度理解深度学习性能：一项心理测量案例研究

研究了深度学习模型性能评估中忽略的数据点特征和难度对测试集准确性的影响，通过用已有的心理测量学方法对人类的反应模式进行建模来估计难度，实验结果发现难度对于测试的结果有重要影响，同时易于学习的实例被模型学得更快。

Feb, 2017

分类问题的复杂程度如何？关于分类复杂度测量的调查

本文介绍从训练数据集中提取的能用于特征描述的分类复杂度的测量方法，包括数据的空间分布、决策边界的形状和大小等。同时，分析了这些特征在最新研究中的应用以及未来的工作机会，并介绍了一个名为 Extended Complexity Library (ECoL) 的 R 包，该包实现了一套复杂度测量方法并对公众开放。

Aug, 2018

分类应用中衡量数据质量的新度量方法（扩展版本）

介绍并解释一种基于分类性能和数据退化的相关演变来度量数据质量的新指标，该方法具有模型无关性，并通过大量的数值实验以及具有可控和可解释质量的案例详细验证了所提出度量标准的实用性。

Dec, 2023

是否所有基准数据集都是必要的？文本分类数据集评估的试验研究

探讨了基准测试中是否所有数据集都是必要的问题，实验证明，一些不常用的数据集有较强的区分能力，同时针对文本分类任务，通过数据集特征构建了预测模型。

May, 2022

数据集难度与归纳偏差的作用

通过对随机和受控因素的比较，我们发现例子排名在不同的训练运行、评分方法和模型架构间存在很大的一致性。同时，我们还开发了一种简单的方法来使用一些敏感的例子对模型架构进行指纹识别。这些发现指导从业者在最大化评分一致性方面（例如通过选择适当的评分方法、运行次数和例子子集）并为将来评估评分建立全面的基准。

Jan, 2024

监督分类任务的可转移性和困难度

本文提出了一种新的方法，通过信息论方法来估计监督分类任务的难度和可转移性，无需模型和训练，而是通过探索训练标签统计数据作为随机变量，考虑从源任务到目标任务的两个标签分配之间的条件熵，表明此值与传输模型的损失有关，并测试其在三个大型数据集上的有效性。

Aug, 2019

统计数据集评估：可靠性，难度和有效性

本论文提出了一个模型不可知的数据集评估框架，通过基于经典测试理论的统计分析，评估数据集的可靠性、难度和有效性等三个基本维度，并以命名实体识别为案例研究，介绍了 9 个统计指标用于评估数据集的质量，实验结果和人工评估验证了该框架的有效性，发现数据集质量对模型绩效有显著影响，因此在模型训练或测试前应进行数据集质量评估或针对性的数据集改进。

Dec, 2022