通过错误信息理解大型语言模型中的知识漂移
本研究探究了虚假信息在大语言模型中的传播机制及其对模型响应的影响,结果表明:虚假信息会通过语义扩散传播并污染相关记忆;大语言模型更容易受到权威偏见的影响;在上下文注入下,大语言模型对虚假信息更敏感。这些结果表明有必要研究新的抵御虚假信息的算法以应对其全局影响,并研究新的对齐算法以使大语言模型遵循内在的人类价值观而非表面模式。
May, 2023
本研究使用自动化工作流程,对 ChatGPT、LLaMA 和 OPT 等主流 LLM 进行了数百万次查询,得出了 LLM 在稳健性、一致性和可信度方面存在的问题,提出了一种新的关联数据集索引来评估使用 LLM 进行学术评估的可行性。
May, 2023
通过系统分析语言模型的内部知识和检索信息间的冲突来回答疑问,我们发现正确的检索信息可以修复大多数模型错误,但当参考文档中存在错误信息时,模型的内部知识对该错误信息存在较大的依赖性。这些结果突显了模型的先验知识与参考文档中呈现的信息之间的潜在紧张关系。
Apr, 2024
评估大型语言模型的事实记忆能力及其影响因素,涵盖多个领域、知识流行度水平和模型家族,并观察到指令调整对知识召回的负面影响、模型规模对性能的正面影响以及反事实演示对大模型事实知识召回的降低作用。
Apr, 2024
我们在大型语言模型中探索不确定性量化,旨在确定查询结果的不确定性何时较大。我们同时考虑认识论不确定性和偶然性不确定性,从中推论出一种信息论度量,可可靠地检测只有认识论不确定性较大的情况,从模型的输出中可以仅通过一些特殊的迭代提示来计算。这种量化可以检测出幻觉,在单答案和多答案响应中均适用。与许多标准的不确定性量化策略(例如,将响应的对数似然度阈值化)不同,无法检测到多答案情况下的幻觉。我们进行了一系列实验证明了我们的公式的优势。此外,我们的研究还揭示了大型语言模型给定输出的概率如何通过迭代提示来放大,这可能具有独立的研究价值。
Jun, 2024
大型语言模型的事实准确性不可靠,为了解决这个问题,自然语言处理研究人员提出了一系列技术来估计模型对事实的置信度。然而,由于缺乏系统性的比较,不清楚不同方法之间的差异。为了填补这一空白,我们提出了一个调查和实证比较事实置信度估计器的实验框架,涵盖了事实验证和问题回答。我们的实验结果表明,训练的隐藏状态探针提供了最可靠的置信度估计,但需要权重和训练数据。我们还通过测量模型在输入的语义等效变化下的行为一致性来进行深入评估事实置信度。我们发现,大型语言模型的置信度在语义上等效的输入中往往不稳定,这表明改进模型参数化知识的稳定性有很大的改进空间。
Jun, 2024
本研究解决了大型语言模型(LLMs)在自然语言处理中的误解和脆弱性问题,尤其是它们因依赖统计模式而产生的错误信息和“幻觉”现象。论文提出,通过将生成式变换器模型与事实基础和逻辑编程语言结合,或许能够开发出可信赖的LLMs,实现基于真实信息生成陈述并解释其自我推理过程的可能性。
Aug, 2024
本研究解决了大型语言模型(LLMs)在知识边界感知方面的不足,重点分析了模型在生成的概率与口头信心之间的差异和联系。通过比较,发现概率感知通常比口头感知更准确,但需要领域内的验证集以调整信心阈值,且二者在处理不常见问题时表现更佳。这一发现有助于提升模型在回答超出其知识范围问题时的可靠性。
Aug, 2024
本研究针对大型语言模型(LLMs)推出的一个关键问题——预测中的不确定性估计,指出现有文献多依赖启发式方法,缺乏系统的分类。论文通过整合贝叶斯推断、信息理论和集成策略等理论视角,分类了各种不确定性估计方法,并探讨了将这些方法应用于LLMs时面临的挑战,同时还分析了它们在多种应用中的集成方式,旨在推动LLMs在现实场景中更可靠有效的不确定性估计方法的发展。
Oct, 2024