机器学习基准测试中方差的考虑

Mar, 2021

Accounting for Variance in Machine Learning Benchmarks

Xavier Bouthillier, Pierre Delaunay, Mirko Bronzi, Assya Trofimov, Brennan Nichyporuk...

TL;DR通过模拟对比机器学习算法的整个基准测试过程，我们发现数据采样、参数初始化和超参数选择对结果的影响显著。进一步分析今天所用的主要比较方法，我们提出一种反直觉的结果，即在不增加计算成本的情况下，将更多的变化源添加到不完美的估计器中可以接近更理想的估计器。通过五个不同的深度学习任务和架构，分析改进检测错误率，提出了性能比较的建议。

Abstract

Strong empirical evidence that one machine-learning algorithm A outperforms another one B ideally calls for multiple trials optimizing the learning pipeline over sources of variation such as data sampling, data augmentation, parameter initialization, and hyperparameters choices. This i

machine-learning algorithm benchmarking process deep-learning tasks performance comparisons variance

发现论文，激发创造

测评基准中方差的量化

通过定义和衡量一系列度量评估基准中的方差，包括初始化中的随机性和训练过程中的单调性，本研究提供了对各种方差度量的实证估计，并为从业者提供了考虑和建议。研究发现，简单的改变策略任务（如 MMLU）为较小规模（约 7B）的模型降低了方差，而受人类测试文献启发的更复杂方法（如项目分析和项目反应理论）在降低方差方面效果不明显。总体而言，本研究通过对评估基准中的方差提供了洞察，提出了降低方差的语言模型特定技术，并鼓励从业者在比较模型时谨慎考虑方差。

Jun, 2024

关于机器学习随机性对群体公平性的影响

探究机器学习中算法跨不同组别表现差异的群体公平性的统计度量，发现这些度量在不同训练实例之间存在高方差，从而使得它们无法提供可靠的公平性实证评估。研究表明，群体公平性度量的方差来源于在少数群体上的学习过程的高波动性，而数据顺序的随机性被认为是主要的随机性源。基于这些发现，我们展示如何通过在单个时期改变数据顺序来控制群体级准确性（即模型公平性），高效并对模型整体性能影响微乎其微。

Jul, 2023

协调混乱：神经网络训练的运行差异是无害且不可避免的

本文研究了神经网络训练过程中的表现差异性，找出了其来源，证明了其不可避免的存在性，并通过初步研究从各个方面探讨了训练初值、数据扩增和学习率等方面的影响。

Apr, 2023

基于校准然后计算的深度点击率预测模型中减少方差的度量框架

通过减少方差提高准确性，我们提出了一种新的指标框架 —— 校准损失指标，以解决深度学习管道评估过程中的度量方差问题，并通过在深度点击率预测模型中的理论论证和大量实验验证支持我们的方法。

Jan, 2024

理解双重下降需要进行精细的偏差 - 方差分解

通过对方差进行可解释的对称分解，探讨了深度学习算法的偏差与方差之间的关系，发现随着网络宽度的增加，偏差单调下降，但方差存在非单调行为，并可以通过集成学习消除互作用导致的方差发散。

Nov, 2020

神经网络训练算法基准测试

本文提出了一个新的竞争性算法基准测试，AlgoPerf：训练算法基准测试，在多个工作负载上运行固定的硬件，解决了评估训练算法改进的三个基本挑战，包括如何确定训练何时结束和精确测量训练时间，如何处理测量对确切工作负载细节的敏感性，以及如何公平比较需要超参数调整的算法。在本基准测试中，评估了基线结果和各种优化器构建的基线提交，最终证明了新基准测试的可行性。

Jun, 2023

探索视觉文本生成中的样本方差：评估与观察

本文探讨了视觉化语言生成中的一个重要问题：多个参考数据集的样本方差如何影响模型性能，通过对几个多重参考数据集和相应的视觉语言任务进行实证研究，结果表明在实验中报告多样性是最重要的，而 CIDEr 的评价指标相对于其他指标来说具有更大的样本方差，这些研究指导了未来可靠数据集的设计。

Oct, 2020

对深度模型中的偏差和方差重新审视：一种对齐而非权衡的模式

机器学习的经典智慧认为泛化误差可以从偏差和方差两个方面进行分解，并且这两个术语之间存在一种权衡关系。然而，在本文中，我们展示了对于由深度学习为基础的分类模型集合，偏差和方差在样本级别上是一致的，其中对于正确分类的样本点，平方偏差近似等于方差。我们通过实证证据在多种深度学习模型和数据集上验证了这一现象。此外，我们从两个理论角度研究了这一现象：校准和神经坍缩。我们首先理论上证明在模型被很好地校准的假设下，我们可以观察到偏差 - 方差一致性。其次，从神经坍缩理论提供的视角出发，我们展示了偏差和方差之间的近似相关性。

Oct, 2023

探究自动机器翻译度量评估中的数据差异

该研究发现自动翻译评价指标的表现对数据具有敏感性，而在评估时需要考虑数据差异，因为单一数据集的研究结果可能会导致与大多数其他数据集不一致的结果。

Mar, 2022

机器学习研究的推断可再现性

本研究探讨了机器学习模型评估的可靠性，提出了使用线性混合效应模型的方法，以分析性能评估分数，并使用广义似然比检验进行统计推断。同时，本文还探讨了数据属性与算法噪声因素之间的相互作用，以及噪声源对整体方差的贡献和可靠性系数的计算方法。

Feb, 2023