锚点：以更少示例度量模型

Sep, 2023

Anchor Points: Benchmarking Models with Much Fewer Examples

Rajan Vivek, Kawin Ethayarajh, Diyi Yang, Douwe Kiela

TL;DR现代语言模型的性能可以通过较小的评估集进行基准测试和阐明，Anchor Point Selection 技术能够可靠地评估并排名模型的性能，而 Anchor Point Maps 则可用于可视化不同模型在数据集中不同区域的性能比较。

Abstract

Modern language models often exhibit powerful but brittle behavior, leading to the development of larger and more diverse benchmarks to reliably assess their behavior. Here, we suggest that →

language models benchmarks model performance anchor point selection model behavior

发现论文，激发创造

锚定函数：一类用于研究语言模型的基准函数

了解基于 Transformer 的语言模型对于推进人工智能通用性至关重要，而学术研究团队面临着复杂的数据结构、未知的目标函数、高计算成本和内存需求以及推理过程缺乏可解释性等重大挑战。本文引入锚函数的概念，为研究遵循 “锚 - 键” 模式的学习任务中语言模型设计了一种基准函数，从而构建了一系列模拟各种语言任务的函数。通过示例展示了锚函数的实用性，并揭示了语言模型中注意力结构的两个基本操作：标记位移和一个标记从一个位置广播到多个位置。因此，锚函数框架为进一步探索有价值且易于研究的问题开启了研究空间，尤其是理论研究方面。

Jan, 2024

大型语言模型的知识边界基准测试：对模型评估的不同视角

近年来，在大型语言模型的发展方面取得了重大进展，达到了在各种任务中的显著表现。为了评估语言模型的知识能力，先前的研究提出了许多基于问答对的基准。我们认为，使用固定问题或有限的改写作为查询来评估语言模型的可靠性和全面性是不可靠的，因为语言模型对提示敏感。因此，我们引入了一个名为知识边界的新概念，用于涵盖语言模型中的提示不可知和提示敏感的知识。知识边界避免了语言模型评估中的提示敏感性，使其更可靠和稳健。为了探索给定模型的知识边界，我们提出了具有语义约束的投影梯度下降方法，这是一种新的算法，旨在识别每个知识片段的最佳提示。实验证明我们的算法在计算知识边界方面比现有方法表现出更高的性能。此外，我们还通过知识边界评估了多个语言模型在几个领域中的能力。

Feb, 2024

超越静态模型和测试集：在任务和语言间评测预训练模型的潜力

本文提出了一种利用语言数据和语言类型学特征来预测跨语种语言模型性能的方法，以此取代传统基于翻译的方法评估系统，该方法表现良好并且能够可靠地估计模型在不同语言上的表现。

May, 2022

增强上下文学习的更强随机基准

通过在小数据集上评估语言模型的上下文学习分类性能，我们引入了更强的随机基准：在多个随机分类器中的预期最大准确性。这个更强的随机基准在选择最佳提示演示时，超过标准基准的少量结果有超过 20% 无法超过。当有保留的测试集可用时，这个更强的基准也是保留性能的更好预测，避免不必要的测试集评估。

Apr, 2024

自然语言理解中样本量确定的重新审视

通过使用少量的训练样本来预测最大的可实现模型性能，以预测数据的质量和样本大小。

Jul, 2023

基于原型锚定的学习：处理不完美标注的学习

本文研究了深度神经网络中不平衡分类和嘈音容忍性，并提出了一种名为原型锚定学习（PAL）的方法，将其纳入各种学习分类方案中，以应对不完美的注释。

Jun, 2022

tinyBenchmarks: 用较少的样例评估 LLM

通过研究 LLM 在各种关键基准测试中的表现，我们探索了减少 LLM 性能评估所需评估次数的策略，并发布了评估工具和微型基准测试，证明这些工具和测试足以可靠高效地复现原始评估结果。

Feb, 2024

通过对比集评估模型的局部决策边界

提出了一种新的 NLP 注释范例，通过创建对照集，意在消除测试数据中的系统性差距，从而更准确地评估模型的真实语言能力。创建 10 个多样化的 NLP 数据集的对照集并将其作为新的评估基准发布。

Apr, 2020

RAFT: 一个现实世界的少样本文本分类基准

该研究论文讨论预训练的语言模型在少量数据情况下完成自然语言处理任务的表现，提出了一种新的用于测量模型在真实世界中应用的少量样本任务的基准测试 RAFT，这个基准测试展示了当前技术存在的困难和挑战，虽然一些分类任务对于普通人来说也很困难，但普通人在这些任务上的表现超过了 GPT-3 模型。

Sep, 2021

低资源场景中 PoS 标注器模型的建模

在资源匮乏的情景下，我们评估了早期学习曲线估计作为选择在非深度学习者应用的最适模型的实用机制，以提高性能并控制成本。使用西伊比利亚 - 罗曼斯语族中的加利西亚语作为案例研究，实验结果与我们的预期一致。

Feb, 2024