Apr, 2024

波兰语分类任务的少样本学习评估

TL;DR我们引入了一个包含 7 个不同分类任务的少样本基准,这些任务使用波兰语进行描述。通过在商业和开源预训练模型中进行 0 和 16 次试验的经验比较,我们发现 ICL 获得了最佳表现,商业模型如 GPT-3.5 和 GPT-4 达到了最佳性能。然而,我们的最佳少样本学习分数与在整个训练数据集上微调的 HerBERT-large 性能之间仍然存在显著的 14 个百分点差距。在技术方面,SetFit 成为第二好的方法,紧随其后的是线性探测。非线性头部微调表现最差且不稳定。ICL 的结果表明,Mistral-7b 或 Llama-2-13b 等模型在波兰语语料库上的持续预训练是有益的。这一点通过 Bielik-7b 和 Trurl-13b 的表现提供了证实。为了进一步支持波兰语少样本学习的实验,我们将发布 ICL 的手工模板。