Jun, 2024

LLM 长文本语境失误的洞见:当转换器知道但不透露

TL;DR大型语言模型(LLM)存在位置偏差,难以利用长篇上下文中间或结尾的信息。我们的研究通过探测其隐藏表示来探究 LLMs 的长篇上下文推理能力。我们发现,虽然 LLMs 编码目标信息的位置,但在生成准确回答时往往未能充分利用这一特性。这揭示了信息检索和利用之间的不一致,形成了一种 “知道但不说” 的现象。我们进一步分析了提取时间与最终准确性之间的关系,从而揭示了 Transformer 模型的基本机制。