利用可利用信息解读数据集难度

ICMLOct, 2021

Understanding Dataset Difficulty with $\mathcal{V}$-Usable Information

Kawin Ethayarajh, Yejin Choi, Swabha Swayamdipta

TL;DR本文提出了一个度量模型难度的方法，并使用输入属性的变换模拟模型难度，发现了广泛使用的 NLP 基准测试集中的注释缺陷。

Abstract

Estimating the difficulty of a dataset typically involves comparing state-of-the-art models to humans; the bigger the performance gap, the harder the dataset is said to be. However, this comparison provides little understanding of how difficult each instance in a given distribution is,

dataset difficulty performance gap model information nlp benchmarks

发现论文，激发创造

点对点度量上下文中的可用信息 V-

通过将最近提出的硬度度量点点式 V - 可用信息（PVI）适应为上下文版本（上下文 PVI），我们评估了上下文 PVI 的可靠性，发现它与原始 PVI 具有类似的特征。此外，我们展示了如何利用上下文 PVI 来识别具有挑战性的实例，突显了上下文 PVI 的潜力并提供了对应于上下文学习能力的新见解。

Oct, 2023

在计算限制下可用信息的理论

本文提出了一个基于信息论的新框架，旨在解决复杂系统中的信息推理问题，该框架基于 Shannon 信息理论的变分扩展，结合了建模能力和计算限制，提出了预测 V - 信息的概念，在模型表示学习和系统结构学习方面表现优于传统的相互信息的方法。

Feb, 2020

统计数据集评估：可靠性，难度和有效性

本论文提出了一个模型不可知的数据集评估框架，通过基于经典测试理论的统计分析，评估数据集的可靠性、难度和有效性等三个基本维度，并以命名实体识别为案例研究，介绍了 9 个统计指标用于评估数据集的质量，实验结果和人工评估验证了该框架的有效性，发现数据集质量对模型绩效有显著影响，因此在模型训练或测试前应进行数据集质量评估或针对性的数据集改进。

Dec, 2022

基于点互信息的真实数据集估值

提出了一种新的数据评估方法，通过使用合适的评分规则和点间互信息测量来保证数据供应商总是通过真实报告观测到的数据来最大化他们的预期得分，该方法在贝叶斯机器学习环境中引入了一种新的点间互信息测量方法，证明了它在鲁棒性和对过拟合敏感性方面的优越性。

May, 2024

使用点对点 V - 信息对上下文选定进行的意图检测的有选择性数据增强

这项研究提出了一种基于语言模型和点间 V-information 的方法，通过 in-context 合成新的对话数据并过滤无用数据，能够在少量训练数据下，显著提升意图检测性能。

Feb, 2023

基于应用数据集特征的轻量级分类难度度量

通过提出的分类困难度度量方法，可以在进行一次模型家族的训练和测试后，通过比较难度度量来预测不同数据集和相同家族模型的相对性能，为小型数据集选择计算效率高的模型比重复训练和测试快 6 至 29 倍。

Apr, 2024

遗传数据测量：理解文本分类任务的难度

通过对 78 个现实世界数据集的训练与分析，本研究提出了一种简单易行的衡量文本分类数据集难度的方法，并且此方法适用于不同类型的数据集，可以用于提高模型的性能。