ICMLJul, 2023

评估评估者:当前的小样本学习基准是否适合目的?

TL;DR在 Few-Shot 学习中,已经提出了许多基准测试,但是所有这些基准测试都侧重于在许多任务上平均性能,而关于如何可靠地评估和调整针对单个任务进行训练的模型的问题尚未得到解决。本文首次探讨了任务级评估,这是部署模型的基本步骤。我们衡量了少样本设置下性能估计器的准确性,考虑了模型选择的策略,并研究了通常被认为具有鲁棒性的评估器失败的原因。我们得出结论,将低折叠交叉验证作为直接估计模型性能的最佳选择,而使用自助法或大折叠交叉验证则更适用于模型选择目的。总体而言,我们发现现有的 Few-Shot 学习基准测试并不是以一种可靠的方式设计的,无法获得关于如何有效地在个别任务上使用方法的可靠画面。