Apr, 2024

增强上下文学习的更强随机基准

TL;DR通过在小数据集上评估语言模型的上下文学习分类性能,我们引入了更强的随机基准:在多个随机分类器中的预期最大准确性。这个更强的随机基准在选择最佳提示演示时,超过标准基准的少量结果有超过 20% 无法超过。当有保留的测试集可用时,这个更强的基准也是保留性能的更好预测,避免不必要的测试集评估。