展示你的工作：实验结果的改进报告

Sep, 2019

展示你的工作：实验结果的改进报告

Show Your Work: Improved Reporting of Experimental Results

Jesse Dodge, Suchin Gururangan, Dallas Card, Roy Schwartz, Noah A. Smith

TL;DR通过使用验证数据和计算预算等指标，本文提出了一种新的模型比较方法，从而帮助实现更好地汇报实验结果和确保未来准确对比。

Abstract

Research in natural language processing proceeds, in part, by demonstrating that new models achieve superior performance (e.g., accuracy) on held-out test data, compared to previous results. In this paper, we demonstrate that test-set performance scores alone are insufficient for drawi

natural language processing validation data computation budget experimental results best practices

发现论文，激发创造

展示你的工作并不总是有效的

本文批判性地研究了题为《Show Your Work: Improved Reporting of Experimental Results》的一篇论文，其中提到的评估指标存在偏差和使用错误假设，我们提出了一种无偏的替代方法，并通过统计模拟获得了实证证据。

Apr, 2020

随机变量的最大值的预期验证性能和估计

本文分析了预期验证性能的三个统计估计方法在计算预算方面的效果，并在合成和现实情况下对三个估计器进行评估。其中，无偏估计器具有最高方差，方差最小的估计器具有最大的偏差；最小均方误差的估计器在偏差和方差之间取得了平衡，呈现出经典的偏差 - 方差权衡。我们使用预期验证性能来比较不同模型，并分析每个估计器导致选择哪个模型表现最佳的错误数量。我们发现两个有偏估计器导致最少的错误结论，这提示了最小化方差和均方误差的重要性。

Oct, 2021

比较单个性能得分并不能得出关于机器学习方法的结论

本文研究了模型性能评估方法的可靠性问题，并探讨了仅基于分割数据集评估模型性能的评估方法存在的缺陷。作者提出了基于分数分布的评估方法来代替传统评估方法。

Mar, 2018

自然语言处理任务性能预测

本文提出了一种使用回归模型来预测 NLP 实验评估分数的方法，并证明了这种方法可以有效地预测 NLP 实验结果。同时，作者还提出这种方法可以用来确定实验的子集，以获得对所有实验设置的合理预测。

May, 2020

机器学习基准测试中方差的考虑

通过模拟对比机器学习算法的整个基准测试过程，我们发现数据采样、参数初始化和超参数选择对结果的影响显著。进一步分析今天所用的主要比较方法，我们提出一种反直觉的结果，即在不增加计算成本的情况下，将更多的变化源添加到不完美的估计器中可以接近更理想的估计器。通过五个不同的深度学习任务和架构，分析改进检测错误率，提出了性能比较的建议。

Mar, 2021

自然语言处理竞赛中系统性能分析

合作竞争的科学和技术领域变得越来越受欢迎。本文描述了一种评估方法来对比竞赛结果和竞争。这种方法具有普适性，但是以八个自然语言竞赛为案例进行了说明，涉及分类和回归问题。所提出的方法具有多种优势，包括与修正机制的即插即用比较和置信区间的包含。此外，我们引入了一些指标，使组织者能够评估竞赛的难度。我们的分析显示了我们方法在有效评估竞赛结果方面的潜在有用性。

Mar, 2024

面向更精细和可靠的自然语言处理性能预测

本研究提出了两个方法来改进自然语言处理任务的性能预测：其一是对准确度进行细致的分类表现分析，其二是从置信区间和校准性两个角度理解性能预测模型的可靠性。通过对四类不同的任务分析论证了细致表现预测的必要性，同时说明性能预测方法在未来需要进行可靠性分析，我们公开了代码。

Feb, 2021

算法性能无假设测试的限制

对于限定的数据量，我们研究了算法评估与比较的理论极限，发现在黑盒测试下无法客观评价算法性能，除非可用数据点数远大于样本量。在评估特定训练模型性能方面则较为简单，只需要保留一组验证数据即可。同样地，我们探讨了算法稳定性假设是否足以解决问题，结果发现只有在高稳定性范围内，模型才能基本无差别。最后，我们还针对多个算法的比较问题也得出了类似的理论困难。

Feb, 2024

评估软件项目估算中的预测系统

提出一个新的框架来进行预测系统的评估，并检验了现有的统计指标的有效性，呈现出可靠的实验结论。

Jan, 2021

增强上下文学习的更强随机基准

通过在小数据集上评估语言模型的上下文学习分类性能，我们引入了更强的随机基准：在多个随机分类器中的预期最大准确性。这个更强的随机基准在选择最佳提示演示时，超过标准基准的少量结果有超过 20% 无法超过。当有保留的测试集可用时，这个更强的基准也是保留性能的更好预测，避免不必要的测试集评估。

Apr, 2024