Dec, 2022

无须监督,发现语言模型中的潜在知识

TL;DR提出了一种使用纯无监督方式直接在语言模型的内部激活中查找潜在知识的方法,通过在激活空间中找到满足逻辑一致性属性的方向,可以精确回答只有未标注模型激活的肯定-否定问题。在跨6个模型和10个问答数据集的情况下,尽管不使用监督和模型输出,该方法可以恢复大型语言模型中的各种知识,并且平均超过零-shot准确性4%。结果初步表明,即使我们无法访问显式的基础真值标签,也可以发现语言模型所知道的与它们所说的不同。同时,该方法可以将prompt敏感度减半,并在要求模型生成错误答案时仍然保持高准确性。