蒙特卡罗研究的评估
本研究讨论了常见的评估措施,指出它们存在偏差,需要清楚理解偏差并识别其机会或基线水平,提出了反映预测是否知情的概率的若干概念和测量方法,引入了 Markedness 作为一种相对应的概率的二元测度,展示了 Informedness,Markedness,相关性和重要性的优雅联系,以及它们与召回率和准确率之间的直观关系,并概述了从二分类情况扩展到一般的多类情况。
Oct, 2020
在自然语言处理(NLP)分类任务中,衡量模型泛化能力的常规度量指标(如准确率、F - 度量或 AUC-ROC)的多样性和任意性表明 NLP 领域尚无一致的最佳度量指标。本文对比了几种常规分类度量指标与更具特异性的度量指标,并证明随机猜测的归一化信息性度量是任务性能的简约基准。通过广泛实验,在包括合成场景、自然语言理解、问题回答和机器翻译在内的多个 NLP 任务上使用了一组度量指标对模型进行排名,得出归一化信息性度量最能捕捉到理想模型特征。最后,我们发布了一个按照 SciKitLearn 分类器格式实现的 Python 版本的归一化信息性度量。
Jan, 2024
本研究就 NLP 系统展示的偏见和模型去偏见技术的限制做了梳理和评价,提出了实现公平学习的建议,具体包括明确不同方法之间的关系和与公平性理论的关系,以及处理模型选择问题的声明性工具,以帮助未来的工作。
Feb, 2023
本文综述了自然语言处理技术的快速发展所带来的问题,尤其是如何检测这些技术中的偏见。作者讨论了适用于评估和改进这些偏见测量方法的心理测量学概念,并认为采用心理测量学词汇和方法可以使 NLP 偏见研究更有效和透明。
Nov, 2022
调查表明,对于预训练语言模型的公平度和偏见进行度量的大量指标之间的比较以及使用这些指标进行评估的工作仍然困难,如果不是完全不可能的。建议避免基于嵌入的指标,并专注于下游任务中的公平度评估,以提高未来的公平度比较和评估。
Dec, 2021
使用大型语言模型(LLMs)进行多项选择题(MCQs)的实证研究表明,概率评估方法在生成预测方面存在内在局限性,与当前评估框架通常基于输出概率而非直接生成回应的计算限制相关,结果强调了 LLMs 评估方法的有效性和未来研究的启示。
Feb, 2024