测评基准中方差的量化

Jun, 2024

Quantifying Variance in Evaluation Benchmarks

Lovish Madaan, Aaditya K. Singh, Rylan Schaeffer, Andrew Poulton, Sanmi Koyejo...

TL;DR通过定义和衡量一系列度量评估基准中的方差，包括初始化中的随机性和训练过程中的单调性，本研究提供了对各种方差度量的实证估计，并为从业者提供了考虑和建议。研究发现，简单的改变策略任务（如 MMLU）为较小规模（约 7B）的模型降低了方差，而受人类测试文献启发的更复杂方法（如项目分析和项目反应理论）在降低方差方面效果不明显。总体而言，本研究通过对评估基准中的方差提供了洞察，提出了降低方差的语言模型特定技术，并鼓励从业者在比较模型时谨慎考虑方差。

Abstract

evaluation benchmarks are the cornerstone of measuring capabilities of large language models (LLMs), as well as driving progress in said capabilities. Originally designed to make claims about capabilities (or lack thereof) in fully pretrained models, →

evaluation benchmarks large language models variance metrics performance measures reducing variance

发现论文，激发创造

机器学习基准测试中方差的考虑

通过模拟对比机器学习算法的整个基准测试过程，我们发现数据采样、参数初始化和超参数选择对结果的影响显著。进一步分析今天所用的主要比较方法，我们提出一种反直觉的结果，即在不增加计算成本的情况下，将更多的变化源添加到不完美的估计器中可以接近更理想的估计器。通过五个不同的深度学习任务和架构，分析改进检测错误率，提出了性能比较的建议。

Mar, 2021

探索视觉文本生成中的样本方差：评估与观察

本文探讨了视觉化语言生成中的一个重要问题：多个参考数据集的样本方差如何影响模型性能，通过对几个多重参考数据集和相应的视觉语言任务进行实证研究，结果表明在实验中报告多样性是最重要的，而 CIDEr 的评价指标相对于其他指标来说具有更大的样本方差，这些研究指导了未来可靠数据集的设计。

Oct, 2020

VarBench: 动态变量扰动下的鲁棒语言模型基准测试

通过提出变量扰动方法，从每个测试用例中提取变量，并为每个变量定义一个值范围，以确保每次评估都是新鲜的，从而解决了基准数据泄漏和数据污染问题，提供了更准确评估语言模型真实能力的方法。

Jun, 2024

探究自动机器翻译度量评估中的数据差异

该研究发现自动翻译评价指标的表现对数据具有敏感性，而在评估时需要考虑数据差异，因为单一数据集的研究结果可能会导致与大多数其他数据集不一致的结果。

Mar, 2022

模型基准度量方法的忠实模型评估

统计学意义检验用于自然语言处理（NLP）中，用于确定研究或实验的结果是否可能是由于偶然性还是反映了真实关系。我们在模型基于度量的统计显著性测试中，考虑模型误差对样本方差的影响，并通过公共基准数据集和生产系统的实验，展示了在某些实验中，考虑模型误差计算样本方差对模型基于度量的结果产生了改变。

Dec, 2023

检查 LLM 评估对基准分布假设的鲁棒性

基准测试作为评估大型语言模型（LLMs）的核心方法已经出现。研究界通常依赖于模型在基准测试的测试提示中的平均性能来评估模型的表现。这一点符合一个假设，即基准测试中的测试提示代表来自真实世界的感兴趣的分布的随机样本。我们注意到这一点通常并不成立；相反，我们认为感兴趣的分布因具体用例而异。我们发现（1）模型在测试提示中的性能相关性是非随机的，（2）考虑到测试提示之间的相关性，可以改变主要基准测试中的模型排名，（3）导致这些相关性的解释因素包括语义相似性和常见的 LLM 失败点。

Apr, 2024

机器学习研究的推断可再现性

本研究探讨了机器学习模型评估的可靠性，提出了使用线性混合效应模型的方法，以分析性能评估分数，并使用广义似然比检验进行统计推断。同时，本文还探讨了数据属性与算法噪声因素之间的相互作用，以及噪声源对整体方差的贡献和可靠性系数的计算方法。

Feb, 2023

不要让您的 LLM 成为一个评估基准作弊者

大型语言模型的评估常常会受到不适当使用评估基准和误导性解读评估结果等问题的影响。本研究通过大量实验发现，评估基准泄漏会极大地提高评估结果，从而导致对模型性能的不可靠评估。最后，为大型语言模型的开发者和基准维护者提出了一些建议。

Nov, 2023

基于校准然后计算的深度点击率预测模型中减少方差的度量框架

通过减少方差提高准确性，我们提出了一种新的指标框架 —— 校准损失指标，以解决深度学习管道评估过程中的度量方差问题，并通过在深度点击率预测模型中的理论论证和大量实验验证支持我们的方法。

Jan, 2024

生成人工智能时代下的大型语言模型评估标准的不足

通过以人、过程和技术为视角，功能性和安全性为支柱，使用我们的统一评估框架，对 23 个最先进的 LLM 基准进行了研究，发现了显著的限制，并强调了在人工智能进步的背景下，标准化方法、监管确定性和伦理指南的迫切需求，以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。

Feb, 2024