评估评估者：当前的小样本学习基准是否适合目的？

ICMLJul, 2023

评估评估者：当前的小样本学习基准是否适合目的？

Evaluating the Evaluators: Are Current Few-Shot Learning Benchmarks Fit for Purpose?

Luísa Shimabucoro, Timothy Hospedales, Henry Gouk

TL;DR在 Few-Shot 学习中，已经提出了许多基准测试，但是所有这些基准测试都侧重于在许多任务上平均性能，而关于如何可靠地评估和调整针对单个任务进行训练的模型的问题尚未得到解决。本文首次探讨了任务级评估，这是部署模型的基本步骤。我们衡量了少样本设置下性能估计器的准确性，考虑了模型选择的策略，并研究了通常被认为具有鲁棒性的评估器失败的原因。我们得出结论，将低折叠交叉验证作为直接估计模型性能的最佳选择，而使用自助法或大折叠交叉验证则更适用于模型选择目的。总体而言，我们发现现有的 Few-Shot 学习基准测试并不是以一种可靠的方式设计的，无法获得关于如何有效地在个别任务上使用方法的可靠画面。

Abstract

Numerous benchmarks for few-shot learning have been proposed in the last decade. However all of these benchmarks focus on performance aver

few-shot learning benchmarks task-level evaluation performance estimators model selection

发现论文，激发创造

连续少样本学习的基准定义

该研究为连续性小样本学习引入了一套灵活的基准测试框架 ——SlimageNet64，并使用流行的少样本学习算法提供了基线，以暴露这些算法在连续和数据受限情况下的优点和缺点。

Apr, 2020

上下文中缺少什么？利用信息化演示评估少样学习器

通过挑选与预测样本分享特定信息的示范来区分少样本学习者的能力，结果表明现有的少样本学习者不利用信息，并且暴露了训练真正的上下文学习者的挑战。

Dec, 2022

一种高效的模型评估框架：分层、抽样和估计

模型性能评估是机器学习和计算机视觉中的关键而昂贵的任务。在本文中，我们提出了一种模型评估的统计框架，包括分层、抽样和估计组成部分。我们的实验表明，通过基于准确的模型性能预测进行 k-means 聚类的分层方法能够提供比传统的简单随机抽样更为精确的准确度估计。

Jun, 2024

FewNLU: 少量样本自然语言理解方法的最新基准测试

该研究提出了一种新的评估框架，改进了之前评估程序的测试性能、开发测试相关性和稳定性三个方面，重新评估了几种最先进的少样本自然语言理解方法，发现不同的方法在不同的任务上表现得不尽相同，而且不同方法之间的提高往往是互补的，结合多种方法后最佳组合模型与强有力的完全监督基线的性能接近。

Sep, 2021

FewCLUE: 一个中文 Few-shot 学习基准测试

本文针对中文语言，介绍了中国 Few-shot Learning Evaluation 的基准测试（FewCLUE），该测试涵盖了九个任务，并系统地评估了五种最先进的少样本学习方法，和微调、零样本学习的表现比较，结果表明 PET 和 P-tuning 分别在 RoBERTa 和 ERNIE 上取得了最佳的综合性能，并为进一步推动中文 Few-shot Learning 的研究提供了工具包和在线排行榜。

Jul, 2021

Few-shot Fine-tuning vs. In-context Learning: 公平比较和评估

本文比较了预先训练的语言模型的任务适应的两种替代策略：few-shot fine-tuning 和 in-context learning。通过控制模型、样本数量和参数数量，研究表明 fine-tuned language models 确实可以很好地泛化到 domain 外。虽然两种方法的表现存在巨大变化，并且取决于模型大小和样本数量等属性，说明鲁棒的任务适应仍然是一个挑战。

May, 2023

重新审视调整微调策略以用于少样本学习

该研究证明，在 mini-ImageNet 数据集中，fine-tuning 方法在 1-shot 任务中比常见的 few-shot learning 算法具有更高的准确性，在 5-shot 任务中准确率几乎与最先进的算法相同，同时展示了在高分辨率单领域和跨领域任务中，该方法比常见 few-shot learning 算法具有更高的准确性。

Oct, 2019

比较单个性能得分并不能得出关于机器学习方法的结论

本文研究了模型性能评估方法的可靠性问题，并探讨了仅基于分割数据集评估模型性能的评估方法存在的缺陷。作者提出了基于分数分布的评估方法来代替传统评估方法。

Mar, 2018

FLEX: 少样本自然语言处理任务的统一评估

提出了 FLEX 原则，其中最重要的是新的基准设计方法 Sample Size Design，可以优化统计精度和评估成本；基于该原则，发布了涵盖四种 Few-shot 转移设置和零 - shot 评估的 FLEX 基准测试，以及 UniFew 模型，后者能够将预训练和微调提示格式统一起来，并且即使是简单的提示格式，也能够取得与流行的元学习和提示为基础的方法相媲美的结果。

Jul, 2021

零样本学习：真相如何

这篇研究论文主要针对零样本学习领域，提出了一个新的比较基准系统，分析许多最先进的方法，并探讨该领域的局限性。

Mar, 2017