基准透明度：测量数据对评估的影响

ACLMar, 2024

基准透明度：测量数据对评估的影响

Benchmark Transparency: Measuring the Impact of Data on Evaluation

Venelin Kovatchev, Matthew Lease

TL;DR本文提出了一个自动化框架来测量数据分布对自然语言处理模型性能和评估的影响，并通过两组实验表明数据的分布对评估具有统计学上的重要性，并且可预测模型的泛化能力。

Abstract

In this paper we present an exploratory research on quantifying the impact that data distribution has on the performance and evaluation of

data distribution nlp models performance evaluation dataset similarity

发现论文，激发创造

探究自动机器翻译度量评估中的数据差异

该研究发现自动翻译评价指标的表现对数据具有敏感性，而在评估时需要考虑数据差异，因为单一数据集的研究结果可能会导致与大多数其他数据集不一致的结果。

Mar, 2022

统计数据集评估：可靠性，难度和有效性

本论文提出了一个模型不可知的数据集评估框架，通过基于经典测试理论的统计分析，评估数据集的可靠性、难度和有效性等三个基本维度，并以命名实体识别为案例研究，介绍了 9 个统计指标用于评估数据集的质量，实验结果和人工评估验证了该框架的有效性，发现数据集质量对模型绩效有显著影响，因此在模型训练或测试前应进行数据集质量评估或针对性的数据集改进。

Dec, 2022

自然语言处理基准测试质量相关参数综述

该文介绍了如何通过识别语言属性来发现和衡量数据倾向性，以此建立一个质量量化测度来解决 NLP 中 benchmark 存在的数据倾向性问题。

Oct, 2022

语言数据集漂移的表征与测量

本文提出三个语言数据漂移维度：词汇、结构和语义漂移，通过词频差异、句法差异和不可被词频捕捉的语义变化等度量，研究发现该方法比以前的方法更能够预测模型准确性，特别是在预测模型在测试集上的表现时。

May, 2023

测量对抗数据集

在广泛应用于各个领域的 AI 系统的时代，确保对抗性鲁棒性变得越来越重要，以维护安全性并防止不可取的错误。本研究对描述 NLP 任务中文本实例的现有可量化指标进行了系统调查，并选择了几个当前的对抗效应数据集，比较了原始数据与对抗样本之间的分布差异，研究结果揭示了这些数据集在度量角度上更具挑战性的原因及其与基本假设的一致性。

Nov, 2023

自然语言处理评估中的难题：从需要对每个基准进行 LLM 数据污染度测量谈起

该论文讨论了自然语言处理任务的评估存在的问题，并提出了数据污染以及针对数据污染的自动检测和提示措施。

Oct, 2023

用实际数据衡量文本分类的意外偏误的微妙度量

该论文通过引入一套阈值不可知的度量标准，考虑分类器分数分布在指定群体中的变化，从而提供了深入了解机器学习中的未预期偏差的视角，该方法可帮助发现现有公共模型中的新的潜在微妙的偏差，并使用在线评论和众包注释展示该度量标准的运用。

Mar, 2019

用于神经 NLP 的精细可解释性评估基准

本文提出了一种新的基准来评估神经网络模型和显著性方法的解释能力，其中包含英文和中文标注数据以及用于评估解释能力的标记。实验结果揭示了三种模型和三种显著性方法的解释能力的优劣，希望这个基准可以促进建立值得信赖的系统的研究。

May, 2022

量化自然语言处理中的社会偏见：对外在公平度量的一般化及实证比较

本文提出了三个广义公平度量标准，系统分析了不同的参数选择如何导致公平度量方法之间的差异，以更好地了解和处理 NLP/ML 模型中的不公平性。

Jun, 2021

评估结果的有效性：评估组成性基准测试的一致性

近年来，NLP 模型取得了巨大的进展，尤其是通过这方面的大量数据集进行性能评估。然而，有关特定数据集设计选择可能如何影响我们对模型能力的结论仍存在问题。本研究在组合泛化领域调查了六种建模方法在 4 个数据集上的表现，这些数据集根据 8 种组合分割策略进行划分，总计有 18 种组合泛化划分。我们的结果表明：i) 尽管所有数据集都设计用于评估组合泛化能力，但它们对建模方法的排名是不同的；ii) 由人类生成的数据集彼此之间更加一致，而与合成数据集之间的一致性较差；iii) 通常来说，数据集是否来自相同源头对于得到的模型排名的预测性更强，而是否保持相同的组合性解释则次之；iv) 数据中使用的词汇项目可以极大地影响结论。总的来说，我们的结果表明，在评估流行的评估数据集是否测量其意图时还有很多工作要做，建立更严格的评估标准可能有助于该领域的发展。

Oct, 2023