Feb, 2024

大型语言模型如何编码上下文知识?一项逐层探测研究

TL;DR通过探究任务,我们在本文中首次尝试研究大型语言模型(LLMs)的逐层能力,并利用ChatGPT的生成能力构建了探测数据集,以提供与各种事实相对应的多样且一致的证据,结果表明LLMs在编码上下文知识方面更倾向于将更多知识码在上层,首先将知识与实体标记在较低层编码,然后在上层逐渐增加其他标记中的知识,并在提供无关证据时逐渐忘记中间层保留的较早的上下文知识。