蒙特卡罗研究的评估

Apr, 2015

Evaluation Evaluation a Monte Carlo study

David M. W. Powers

TL;DR通过理论分析和 Monte Carlo 模拟，对传统评估方法中存在的偏见进行了讨论，提出了一些不受偏见影响的替代评估方法，如 Cohen Kappa，并进行了实证评估。

Abstract

Over the last decade there has been increasing concern about the biases embodied in traditional evaluation methods for Natural Language Processing/Learning, particularly methods borrowed from Information Retrieval. Without knowledge of the Bias and Prevalence of the contingency being t

natural language processing/learning biases evaluation measures cohen kappa monte carlo simulation

发现论文，激发创造

评价：从精度、召回率和 F - 度量到 ROC、知情度、标记度和相关性

本研究讨论了常见的评估措施，指出它们存在偏差，需要清楚理解偏差并识别其机会或基线水平，提出了反映预测是否知情的概率的若干概念和测量方法，引入了 Markedness 作为一种相对应的概率的二元测度，展示了 Informedness，Markedness，相关性和重要性的优雅联系，以及它们与召回率和准确率之间的直观关系，并概述了从二分类情况扩展到一般的多类情况。

Oct, 2020

更准确的结果差异统计学显著性检验

该研究探讨了在自然语言处理实证研究中，常用统计方法在独立性假设违反情况下，低估了统计差异的问题，并提出了一些不需要独立性假设的有效测试方法。

Aug, 2000

自然语言处理中的分类评估指标问题讨论

在自然语言处理（NLP）分类任务中，衡量模型泛化能力的常规度量指标（如准确率、F - 度量或 AUC-ROC）的多样性和任意性表明 NLP 领域尚无一致的最佳度量指标。本文对比了几种常规分类度量指标与更具特异性的度量指标，并证明随机猜测的归一化信息性度量是任务性能的简约基准。通过广泛实验，在包括合成场景、自然语言理解、问题回答和机器翻译在内的多个 NLP 任务上使用了一组度量指标对模型进行排名，得出归一化信息性度量最能捕捉到理想模型特征。最后，我们发布了一个按照 SciKitLearn 分类器格式实现的 Python 版本的归一化信息性度量。

Jan, 2024

NLP 训练中的辛普森偏差

研究机器学习中，针对不同数据集测量方法与训练模型的不一致性，引起 Simpson's bias 现象。

Mar, 2021

评估软件项目估算中的预测系统

提出一个新的框架来进行预测系统的评估，并检验了现有的统计指标的有效性，呈现出可靠的实验结论。

Jan, 2021

足够公平：在自然语言处理领域规范评估和选择公平性研究的模型

本研究就 NLP 系统展示的偏见和模型去偏见技术的限制做了梳理和评价，提出了实现公平学习的建议，具体包括明确不同方法之间的关系和与公平性理论的关系，以及处理模型选择问题的声明性工具，以帮助未来的工作。

Feb, 2023

自然语言处理中不良偏见：避免度量危机

本文综述了自然语言处理技术的快速发展所带来的问题，尤其是如何检测这些技术中的偏见。作者讨论了适用于评估和改进这些偏见测量方法的心理测量学概念，并认为采用心理测量学词汇和方法可以使 NLP 偏见研究更有效和透明。

Nov, 2022

使用有偏尺度衡量公平性：对预训练语言模型中偏差量化的调查

调查表明，对于预训练语言模型的公平度和偏见进行度量的大量指标之间的比较以及使用这些指标进行评估的工作仍然困难，如果不是完全不可能的。建议避免基于嵌入的指标，并专注于下游任务中的公平度评估，以提高未来的公平度比较和评估。

Dec, 2021

超越概率：揭示大型语言模型评估中的不一致性

使用大型语言模型（LLMs）进行多项选择题（MCQs）的实证研究表明，概率评估方法在生成预测方面存在内在局限性，与当前评估框架通常基于输出概率而非直接生成回应的计算限制相关，结果强调了 LLMs 评估方法的有效性和未来研究的启示。

Feb, 2024

自然语言处理中偏见和伤害的度量

该研究提出了有关 NLP 技术中有关社会偏见的框架和一系列问题，并且通过几个案例研究来验证了我们的框架和记录问题。

Aug, 2021