基准透明度:测量数据对评估的影响
本论文提出了一个模型不可知的数据集评估框架,通过基于经典测试理论的统计分析,评估数据集的可靠性、难度和有效性等三个基本维度,并以命名实体识别为案例研究,介绍了 9 个统计指标用于评估数据集的质量,实验结果和人工评估验证了该框架的有效性,发现数据集质量对模型绩效有显著影响,因此在模型训练或测试前应进行数据集质量评估或针对性的数据集改进。
Dec, 2022
本文提出三个语言数据漂移维度:词汇、结构和语义漂移,通过词频差异、句法差异和不可被词频捕捉的语义变化等度量,研究发现该方法比以前的方法更能够预测模型准确性,特别是在预测模型在测试集上的表现时。
May, 2023
在广泛应用于各个领域的 AI 系统的时代,确保对抗性鲁棒性变得越来越重要,以维护安全性并防止不可取的错误。本研究对描述 NLP 任务中文本实例的现有可量化指标进行了系统调查,并选择了几个当前的对抗效应数据集,比较了原始数据与对抗样本之间的分布差异,研究结果揭示了这些数据集在度量角度上更具挑战性的原因及其与基本假设的一致性。
Nov, 2023
该论文通过引入一套阈值不可知的度量标准,考虑分类器分数分布在指定群体中的变化,从而提供了深入了解机器学习中的未预期偏差的视角,该方法可帮助发现现有公共模型中的新的潜在微妙的偏差,并使用在线评论和众包注释展示该度量标准的运用。
Mar, 2019
本文提出了一种新的基准来评估神经网络模型和显著性方法的解释能力,其中包含英文和中文标注数据以及用于评估解释能力的标记。实验结果揭示了三种模型和三种显著性方法的解释能力的优劣,希望这个基准可以促进建立值得信赖的系统的研究。
May, 2022
本文提出了三个广义公平度量标准,系统分析了不同的参数选择如何导致公平度量方法之间的差异,以更好地了解和处理 NLP/ML 模型中的不公平性。
Jun, 2021
近年来,NLP 模型取得了巨大的进展,尤其是通过这方面的大量数据集进行性能评估。然而,有关特定数据集设计选择可能如何影响我们对模型能力的结论仍存在问题。本研究在组合泛化领域调查了六种建模方法在 4 个数据集上的表现,这些数据集根据 8 种组合分割策略进行划分,总计有 18 种组合泛化划分。我们的结果表明:i) 尽管所有数据集都设计用于评估组合泛化能力,但它们对建模方法的排名是不同的;ii) 由人类生成的数据集彼此之间更加一致,而与合成数据集之间的一致性较差;iii) 通常来说,数据集是否来自相同源头对于得到的模型排名的预测性更强,而是否保持相同的组合性解释则次之;iv) 数据中使用的词汇项目可以极大地影响结论。总的来说,我们的结果表明,在评估流行的评估数据集是否测量其意图时还有很多工作要做,建立更严格的评估标准可能有助于该领域的发展。
Oct, 2023