增强上下文学习的更强随机基准
本论文通过对 UCI 数据集上的回归实验的相关方法进行比较,揭示了实验过程中可能存在的问题,并指出在贝叶斯深度学习中使用相同的实验环境进行评估、比较和基准测试的重要性。
Nov, 2018
本文提出了一个度量标准,评估了一个固定提示对标签或给定属性的预测偏差,并提出了一种新的基于贪心搜索的搜索策略来确定最佳提示,以提高上下文学习的性能,并在多种下游任务中使用 GPT-3 等最先进的主流模型进行全面实验。结果表明,我们的方法可以有效提高模型的在上下文学习性能。
Mar, 2023
本文分析了预期验证性能的三个统计估计方法在计算预算方面的效果,并在合成和现实情况下对三个估计器进行评估。其中,无偏估计器具有最高方差,方差最小的估计器具有最大的偏差;最小均方误差的估计器在偏差和方差之间取得了平衡,呈现出经典的偏差 - 方差权衡。我们使用预期验证性能来比较不同模型,并分析每个估计器导致选择哪个模型表现最佳的错误数量。我们发现两个有偏估计器导致最少的错误结论,这提示了最小化方差和均方误差的重要性。
Oct, 2021
大语言模型在解决新任务方面表现出了非凡的能力。本研究在大语言模型的上下文学习性能中探究了输入示例的格式对模型性能的影响,并提出了使用多个模板进行模型预测的模板集成方法,以提高模型性能并减少模板选择的影响。
Jan, 2024
现代语言模型的性能可以通过较小的评估集进行基准测试和阐明,Anchor Point Selection 技术能够可靠地评估并排名模型的性能,而 Anchor Point Maps 则可用于可视化不同模型在数据集中不同区域的性能比较。
Sep, 2023
提出了一种新的 NLP 注释范例,通过创建对照集,意在消除测试数据中的系统性差距,从而更准确地评估模型的真实语言能力。创建 10 个多样化的 NLP 数据集的对照集并将其作为新的评估基准发布。
Apr, 2020
通过提出变量扰动方法,从每个测试用例中提取变量,并为每个变量定义一个值范围,以确保每次评估都是新鲜的,从而解决了基准数据泄漏和数据污染问题,提供了更准确评估语言模型真实能力的方法。
Jun, 2024
本文提出一种简单的方法,用于评估预训练模型在特定 spurious feature 上的依赖程度并评估各种预训练模型和去偏见方法在问答 (QA) 中对大量已知和新发现偏差的鲁棒性,发现去偏见方法的 OOD 收益不能通过减少对偏见特征的依赖来解释,我们进一步通过测量 OOD 模型的性能表明其依赖于偏见特征,这表明 QA 数据集中存在共享的偏见,同时也需要进一步的工作来提高 LLM 鲁棒性的报告水平。
May, 2023
本文介绍了 Uncertainty Baselines,这是一个包括 19 个方法在 9 个任务上的高质量实现,以提供对不同方法进行比较的立即出发点,每个基线都是一个自包含的实验流水线,易于重用和扩展,同时提供模型检查点、实验输出和排行榜以比较结果。
Jun, 2021