大型语言模型知识编辑中多跳事实捷径的探索研究
本文提出通过结构化知识图谱中的随机游走来指导语言模型完成多跳推理,从而有效解决语言模型在问答任务中组合多条逻辑事实的限制,并在两个 T5 语言模型上取得了显著的实验效果提升。
Jun, 2023
该研究探讨了大语言模型在推理过程中出现的错误思考路径和幻觉问题,并通过一种新的探测方法和基准测试提供了证据,揭示了语言模型存在语义关联和错误推理的问题。
Nov, 2023
本文探讨了在大型语言模型中注入新事实的技术,并提出了一个包含多跳问题的基准测试 MQuAKE,旨在评估修改后的模型是否能够正确回答受编辑事实影响的问题。我们提出了一个名为 MeLLo 的基于记忆的方法,存储所有编辑过的事实,并提示语言模型根据编辑后的事实迭代生成与之一致的答案。MeLLo 在大型语言模型(高达 175B)中具有良好的可扩展性和超过以往模型编辑器的性能。
May, 2023
大型语言模型在自然语言处理领域取得了重要的性能提升,然而近期的研究发现,这些模型在执行任务时往往使用了捷径,导致性能看起来得到了提升,却缺乏泛化能力。这一现象给大型语言模型的自然语言理解评估带来了挑战。本文对该领域的相关研究进行了简明调查,并提出了对于捷径学习在语言模型评估中的影响的观点,特别是对于 NLU 任务。本文呼吁加大对捷径学习的研究力度,促进更加强大的语言模型的开发,并提高在实际场景中的 NLU 评估标准。
Jan, 2024
本文介绍 KnowledgeEditor 一种方法,用于编辑语言模型中的知识,以修复 “错误” 或意外预测,且不需要重新训练或以元学习为前提条件。作者使用受约束的优化来训练一个超网络,该超网络可预测权重更新。作者展示了 KnowledgeEditor 的有效性,其支持两种流行的体系结构和知识密集型任务:一种是针对事实核对进行细微调整的 BERT 模型,另一种是适用于问答的序列到序列 BART 模型。
Apr, 2021
我们研究了大型语言模型是否会潜在地使用复杂提示进行多跳推理,例如 “‘Superstition’歌手的妈妈是谁”。我们寻找潜在的推理路径,其中语言模型(1)将 “‘Superstition’歌手” 潜在地认定为桥梁实体 Stevie Wonder,(2)利用自己对 Stevie Wonder 母亲的了解来完成提示。我们分析了这两个跳跃的独立情况,并将它们的共同出现视为潜在多跳推理的指示。对于第一个跳跃,我们测试了将提示间接提及桥梁实体而不是其他实体是否增加了语言模型对桥梁实体的内部召回率。对于第二个跳跃,我们测试了增加这种召回率是否使语言模型更好地利用其对桥梁实体的了解。我们发现,在某些关系类型的提示中存在强烈的潜在多跳推理证据,超过 80% 的提示中使用了这种推理路径。然而,利用是高度情境化的,在不同类型的提示中有所变化。此外,平均而言,第二个跳跃和完整的多跳遍历的证据相对较为适度,只有第一个跳跃的证据较为显著。此外,我们发现,随着模型大小的增加,第一个跳跃的推理存在明显的规模性趋势,但第二个跳跃不存在。我们的实验结果对未来大型语言模型的发展和应用提出了挑战和机遇的建议。
Feb, 2024
构建和利用语义结构的多跳问题回答框架,通过神经模型和连续思维机制提高推理能力,并结合信息抽取和提取的语义结构实现更准确和可解释的问题回答。
Nov, 2023
通过设计基准测试 Pinocchio,综合评估大型语言模型 (LLMs) 中的事实知识的广度和范围,研究发现现有的 LLMs 仍然缺乏事实知识并存在各种虚假相关性,这成为实现可靠人工智能的关键瓶颈。
Oct, 2023
利用修改的 HotpotQA 数据集为基础,我们引入了第一个基于新的无与伦比的知识的 LLM 多跳问答评估基准,并注释和评估了形式为子问题和中间答案的推理链,以此促进对 LLM 在多跳问答任务上的可信评估的发展。
Feb, 2024