模型基准度量方法的忠实模型评估

Dec, 2023

模型基准度量方法的忠实模型评估

Faithful Model Evaluation for Model-Based Metrics

Palash Goyal, Qian Hu, Rahul Gupta

TL;DR统计学意义检验用于自然语言处理（NLP）中，用于确定研究或实验的结果是否可能是由于偶然性还是反映了真实关系。我们在模型基于度量的统计显著性测试中，考虑模型误差对样本方差的影响，并通过公共基准数据集和生产系统的实验，展示了在某些实验中，考虑模型误差计算样本方差对模型基于度量的结果产生了改变。

Abstract

statistical significance testing is used in natural language processing (NLP) to determine whether the results of a study or experiment are likely to be due to chance or if they reflect a genuine relationship. A

statistical significance testing natural language processing confidence interval metric model errors model-based metrics

发现论文，激发创造

更准确的结果差异统计学显著性检验

该研究探讨了在自然语言处理实证研究中，常用统计方法在独立性假设违反情况下，低估了统计差异的问题，并提出了一些不需要独立性假设的有效测试方法。

Aug, 2000

基础模型时代中的风险评估和统计显著性

提出了一个分布框架，用于评估基础模型的社会技术风险，并通过量化统计显著性进行考量。利用基于实际随机变量的一阶和二阶随机优势的新统计相对测试，与在选择备选方案时平衡风险和效用常用的均值 - 风险模型建立联系。采用这个框架，我们正式发展了一个基于风险意识的基础模型选择方法，给定由指定指标量化的约束。受数学金融中的投资组合优化和选择理论的启发，我们为每个模型定义了一个 “指标组合” 作为聚合指标的方法，并基于这些组合的随机优势进行模型选择。我们的测试的统计显著性在理论上得到支持，通过中心极限定理的渐近分析并在实践中通过自助方差估计来实例化。我们使用这个框架来比较各种大型语言模型，针对偏离指令和输出有害内容的风险进行评估。

Oct, 2023

机器学习研究的推断可再现性

本研究探讨了机器学习模型评估的可靠性，提出了使用线性混合效应模型的方法，以分析性能评估分数，并使用广义似然比检验进行统计推断。同时，本文还探讨了数据属性与算法噪声因素之间的相互作用，以及噪声源对整体方差的贡献和可靠性系数的计算方法。

Feb, 2023

测评基准中方差的量化

通过定义和衡量一系列度量评估基准中的方差，包括初始化中的随机性和训练过程中的单调性，本研究提供了对各种方差度量的实证估计，并为从业者提供了考虑和建议。研究发现，简单的改变策略任务（如 MMLU）为较小规模（约 7B）的模型降低了方差，而受人类测试文献启发的更复杂方法（如项目分析和项目反应理论）在降低方差方面效果不明显。总体而言，本研究通过对评估基准中的方差提供了洞察，提出了降低方差的语言模型特定技术，并鼓励从业者在比较模型时谨慎考虑方差。

Jun, 2024

探究自动机器翻译度量评估中的数据差异

该研究发现自动翻译评价指标的表现对数据具有敏感性，而在评估时需要考虑数据差异，因为单一数据集的研究结果可能会导致与大多数其他数据集不一致的结果。

Mar, 2022

自然语言处理任务推荐的统计显著性检验

该研究论文讨论了如何通过有效的统计显著性测试来证明自然语言处理 (NLP) 算法的优越性，并提出了针对该领域常见任务和评估指标的统计测试方法。

Sep, 2018

随机变量的最大值的预期验证性能和估计

本文分析了预期验证性能的三个统计估计方法在计算预算方面的效果，并在合成和现实情况下对三个估计器进行评估。其中，无偏估计器具有最高方差，方差最小的估计器具有最大的偏差；最小均方误差的估计器在偏差和方差之间取得了平衡，呈现出经典的偏差 - 方差权衡。我们使用预期验证性能来比较不同模型，并分析每个估计器导致选择哪个模型表现最佳的错误数量。我们发现两个有偏估计器导致最少的错误结论，这提示了最小化方差和均方误差的重要性。

Oct, 2021

提高在线实验效率的比例指标方差减少

在这项工作中，我们成功地将方差缩减技术应用于一个大规模的短视频平台 ShareChat 上的比率指标。我们的实证结果表明，在 77% 的情况下，我们可以提高 A/B 测试的置信水平，或者以 30% 的数据点减少保持相同的置信水平。重要的是，我们表明，在回归中包含尽可能多的协变量的常见方法是适得其反的，强调基于梯度提升决策树预测器的控制变量是最有效的。我们讨论了在大规模实施这些方法的可行性，并展示了它们带来的成本降低。

Jan, 2024

假设检验与机器学习：使用 Cohen 的 f2 解释深度人工神经网络中的变量效应

本文提出了一种基于现有的可解释人工智能（XAI）方法的、适用于机器学习的无模型假设检验框架，其中利用 Fisher 的变量置换算法计算等效于 OLS 回归模型的 Cohen's f2 的效应量度量，并将 Mann-Kendall 检验和 Theil-Sen 估计器应用于 Apley 的累积局部效应图，以指定变量的影响方向和统计显著性。该方法在人工数据集和社会调查中得以证明其有效性。

Feb, 2023

评估软件项目估算中的预测系统

提出一个新的框架来进行预测系统的评估，并检验了现有的统计指标的有效性，呈现出可靠的实验结论。

Jan, 2021