May, 2023

大型语言模型在知识冲突中的行为:自适应变色龙或顽固树懒

TL;DR本文提出了一种系统性方法,通过对 LLMs 的参数化记忆进行质量控制来构建相应的反记忆,并借此进行了一系列受控实验,研究了 LLMs 在遇到知识冲突时的行为,发现 LLMs 在保持一致性和可信性的情况下,即使与其参数化记忆冲突,也可以高度接受外部证据,但在提供与其参数化记忆一致的信息时,它们也表现出强烈的确认偏差。这些结果对工具和检索增强 LLMs 的进一步开发和部署具有重要意义。