增强上下文学习的更强随机基准

Apr, 2024

Stronger Random Baselines for In-Context Learning

Gregory Yauney, David Mimno

TL;DR通过在小数据集上评估语言模型的上下文学习分类性能，我们引入了更强的随机基准：在多个随机分类器中的预期最大准确性。这个更强的随机基准在选择最佳提示演示时，超过标准基准的少量结果有超过 20% 无法超过。当有保留的测试集可用时，这个更强的基准也是保留性能的更好预测，避免不必要的测试集评估。

Abstract

Evaluating the in-context learning classification performance of language models poses challenges due to small dataset sizes, extensive prompt-selection using the →

in-context learning classification language models small dataset sizes validation set random baseline

发现论文，激发创造

贝叶斯深度学习中强基线的重要性

本论文通过对 UCI 数据集上的回归实验的相关方法进行比较，揭示了实验过程中可能存在的问题，并指出在贝叶斯深度学习中使用相同的实验环境进行评估、比较和基准测试的重要性。

Nov, 2018

大语言模型的公平指导少样本提示

本文提出了一个度量标准，评估了一个固定提示对标签或给定属性的预测偏差，并提出了一种新的基于贪心搜索的搜索策略来确定最佳提示，以提高上下文学习的性能，并在多种下游任务中使用 GPT-3 等最先进的主流模型进行全面实验。结果表明，我们的方法可以有效提高模型的在上下文学习性能。

Mar, 2023

随机变量的最大值的预期验证性能和估计

本文分析了预期验证性能的三个统计估计方法在计算预算方面的效果，并在合成和现实情况下对三个估计器进行评估。其中，无偏估计器具有最高方差，方差最小的估计器具有最大的偏差；最小均方误差的估计器在偏差和方差之间取得了平衡，呈现出经典的偏差 - 方差权衡。我们使用预期验证性能来比较不同模型，并分析每个估计器导致选择哪个模型表现最佳的错误数量。我们发现两个有偏估计器导致最少的错误结论，这提示了最小化方差和均方误差的重要性。

Oct, 2021

注意格式：实现对上下文学习改进的一致评估

大语言模型在解决新任务方面表现出了非凡的能力。本研究在大语言模型的上下文学习性能中探究了输入示例的格式对模型性能的影响，并提出了使用多个模板进行模型预测的模板集成方法，以提高模型性能并减少模板选择的影响。

Jan, 2024

锚点：以更少示例度量模型

现代语言模型的性能可以通过较小的评估集进行基准测试和阐明，Anchor Point Selection 技术能够可靠地评估并排名模型的性能，而 Anchor Point Maps 则可用于可视化不同模型在数据集中不同区域的性能比较。

Sep, 2023

通过对比集评估模型的局部决策边界

提出了一种新的 NLP 注释范例，通过创建对照集，意在消除测试数据中的系统性差距，从而更准确地评估模型的真实语言能力。创建 10 个多样化的 NLP 数据集的对照集并将其作为新的评估基准发布。

Apr, 2020

展示你的工作：实验结果的改进报告

通过使用验证数据和计算预算等指标，本文提出了一种新的模型比较方法，从而帮助实现更好地汇报实验结果和确保未来准确对比。

Sep, 2019

VarBench: 动态变量扰动下的鲁棒语言模型基准测试

通过提出变量扰动方法，从每个测试用例中提取变量，并为每个变量定义一个值范围，以确保每次评估都是新鲜的，从而解决了基准数据泄漏和数据污染问题，提供了更准确评估语言模型真实能力的方法。

Jun, 2024

再三思考：衡量消除问答模型预测快捷方式的效率

本文提出一种简单的方法，用于评估预训练模型在特定 spurious feature 上的依赖程度并评估各种预训练模型和去偏见方法在问答 (QA) 中对大量已知和新发现偏差的鲁棒性，发现去偏见方法的 OOD 收益不能通过减少对偏见特征的依赖来解释，我们进一步通过测量 OOD 模型的性能表明其依赖于偏见特征，这表明 QA 数据集中存在共享的偏见，同时也需要进一步的工作来提高 LLM 鲁棒性的报告水平。

May, 2023

不确定性基线：深度学习中的不确定性与鲁棒性基准

本文介绍了 Uncertainty Baselines，这是一个包括 19 个方法在 9 个任务上的高质量实现，以提供对不同方法进行比较的立即出发点，每个基线都是一个自包含的实验流水线，易于重用和扩展，同时提供模型检查点、实验输出和排行榜以比较结果。

Jun, 2021