May, 2023

基于提示的方法可能会低估大型语言模型的语言泛化能力

TL;DR本文比较了元语言激励和直接概率测量作为衡量英语知识的方法,并发现大语言模型的元语言判断低于直接从表示中派生出的数量。