Nov, 2023

小型语言模型是通过记忆还是泛化来回答上下文问题的?

TL;DR使用语言模型进行问题回答的过程中,我们提出了一种基于输入和标签之间的语义相似性的方法,用于区分模型对评估样本的直接记忆和通过一些泛化方法预测标签的能力。通过应用该方法,我们在评估数据集的无法记忆子集中观察到了显著的性能改善。