当上下文主导,而参数记忆随之而来:在大语言模型中的研究
此论文通过在新的问题/答案(QA)数据集PopQA上对10个模型和4种增强方法进行大规模的知识探测实验,旨在了解大型语言模型(LMs)在记忆事实知识方面的优劣,发现LMs在纽约市场上的市场地位相对较低,而检索增强的LMs在不需要检索的情况下可以显著地改善性能,并降低推理成本。
Dec, 2022
通过构建参数化知识图和引入外部知识,系统地研究了大型语言模型 (LLMs) 在与用户互动时,外部知识如何干扰其参数化知识;结果显示,LLMs 在遇到直接冲突或混淆信息时容易产生与其参数化知识不符的回复,暴露了整合外部知识时产生幻觉的风险。
Sep, 2023
通过提示工程,大型语言模型(LLMs)展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而,在自然语言理解和问题回答方面,提高LLMs的泛化能力和准确性的关键挑战仍未得到充分探索。
Dec, 2023
本研究引入了一种知识增强生成器,旨在生成依托于上下文知识的信息,无论上下文如何变化。我们的研究重点探究在动态知识存在时生成型问答的忠实度,并分析其产生原因。我们提出了一种简单而有效的探测此类幻觉的方法,并发现所有模型都倾向于生成以往的答案作为幻觉。通过一系列实验证明了上下文在幻觉中扮演的关键角色,包括训练和测试阶段,从不同角度获得更深入的洞察。
Feb, 2024
通过探究任务,我们在本文中首次尝试研究大型语言模型(LLMs)的逐层能力,并利用ChatGPT的生成能力构建了探测数据集,以提供与各种事实相对应的多样且一致的证据,结果表明LLMs在编码上下文知识方面更倾向于将更多知识码在上层,首先将知识与实体标记在较低层编码,然后在上层逐渐增加其他标记中的知识,并在提供无关证据时逐渐忘记中间层保留的较早的上下文知识。
Feb, 2024
融合外部知识到大型语言模型(LLMs)中,以克服其古老且静态参数化记忆所带来的局限性,增强LLMs在知识整合方面的能力成为很有前景的解决方案。然而,先前的研究倾向于过度依赖外部知识,低估了LLMs内在参数化知识的宝贵贡献。尤其是在外部知识不完整且需要参数化知识补充的情况下,LLMs在混合外部和参数化知识方面的有效性仍然未被广泛探索。本研究将知识融合拆解成四个不同的场景,并首次对LLMs在每个场景下的行为进行了系统研究。我们开发了一个系统化的数据构建和知识注入流程来模拟这些融合场景,从而进行了一系列的对照实验。我们的调查结果表明,增强LLMs内部的参数化知识可以显著增强它们的知识整合能力。然而,我们发现在记忆和引出参数化知识以及确定参数化知识边界方面仍然存在挑战。我们的研究结果旨在引导未来对LLMs内部外部知识协调的探索。
May, 2024
利用大型语言模型作为知识库的可靠性和效果尚未得到充分研究,该研究通过定义可靠性标准和指标,评估了26个热门语言模型的效果,并发现即使高性能模型如GPT-3.5-turbo也不具备事实性和一致性,而在上下文学习和微调等策略上的努力也未能改善这些语言模型作为知识库的表现。
Jul, 2024
本研究探讨了大型语言模型在回答开放式问题时,如何在局部上下文和全局参数之间分配知识。通过引入新数据集WikiAtomic,分析模型在不同上下文大小下的知识利用方式,揭示了在上下文增加时,模型对上下文知识的依赖显著高于参数知识,同时有效减少了幻觉现象。这些发现强调了优化上下文组织的重要性,并为更有效的模型开发提供了新视角。
Sep, 2024
本研究针对大型语言模型(LLMs)在生成响应时的上下文忠实性进行调查,填补了此前研究的 gaps。我们提出了一种量化 LLM 记忆强度的方法,并评估了证据呈现风格对其影响。研究发现,对于高记忆强度的问题,LLMs 更倾向于依赖内部记忆,而呈现不同风格的证据能显著提高其接受度。
Sep, 2024