ACLJan, 2024

比较基于模板和基于自由模型的语言模型探测

TL;DR通过比较专家制定的模板和自然发生的文本对填空任务语言模型进行探测的差异,我们评估了 16 种不同的模型在 10 个针对英语数据集的探测中,其中 4 个基于模板,6 个基于无模板,以回答以下研究问题:(RQ1)两种方法之间的模型排名是否不同?(RQ2)两种方法之间的模型得分是否不同?(RQ3)在一般和领域特定模型之间,RQ1 和 RQ2 的答案是否不同?我们的发现是:1)除了顶级领域特定模型外,无模板和基于模板的方法通常会对模型进行不同的排名。2)在比较并行的无模板和基于模板提示时,准确率下降了最多 42%。3)在无模板方法中,困惑度与准确性呈负相关,但引人注目的是,对于基于模板的探测,它们呈正相关。4)在基于模板的探测中,模型倾向于经常对不同提示进行相同的答案预测,而在使用无模板技术时这种情况较少见。