研究大型语言模型在现实知识冲突下的行为
检视检索增强生成 (RAG) 方法,揭示语言模型倾向于仅依赖上下文信息来回答问题,而较少使用参数化记忆,通过因果中介分析和注意力机制等方法来证明该机械行为。
Jun, 2024
通过对大规模语言模型(LLMs)使用检索增强生成(RAG)来评估知识冲突的处理方法,特别是针对来源相同且具有相等可信度的检索到的段落,研究发现所有模型在提供包含相互矛盾的事实的两个段落时,都难以生成准确反映冲突性质的答案,尤其是对于需要推理的隐含冲突。为了促进未来的研究,通过引入一个自动化模型,该模型使用一个开源强大的语言模型估计 LLM 的性能,实现了 0.8 的 F 分数,并在所有 WikiContradict 实例上评估了来自七个 LLM 的 1500 多个答案。
Jun, 2024
探索和解决检索增强语言模型中的知识冲突,提出了冲突 - 分离 - 对比解码(CD2)方法来更好地校准模型的置信度,实验证明 CD2 可以有效解决检索增强语言模型中的知识冲突。
Feb, 2024
通过系统分析语言模型的内部知识和检索信息间的冲突来回答疑问,我们发现正确的检索信息可以修复大多数模型错误,但当参考文档中存在错误信息时,模型的内部知识对该错误信息存在较大的依赖性。这些结果突显了模型的先验知识与参考文档中呈现的信息之间的潜在紧张关系。
Apr, 2024
大型语言模型(LLMs)在实际应用中仍面临幻觉、知识更新缓慢和答案透明度不足等挑战。检索增强生成(RAG)是指在 LLMs 回答问题之前从外部知识库中检索相关信息。该论文概述了 LLMs 时代 RAG 的发展范式,总结了三种范式:Naive RAG,Advanced RAG 和 Modular RAG。同时,它提供了 RAG 的三个主要组成部分:检索器、生成器和增强方法的摘要和组织,以及每个组件的关键技术。此外,论文讨论了如何评估 RAG 模型的有效性,并介绍了两种 RAG 的评估方法、重点指标和能力,以及最新的自动评估框架。最后,从垂直优化、水平可扩展性和 RAG 的技术堆栈和生态系统三个方面引入了潜在的未来研究方向。
Dec, 2023
大型语言模型(LLMs)在识别知识冲突方面表现良好,但在确定具体的冲突知识并在相冲突的信息中给出不同的答案方面存在困难。为了解决这些问题,我们提出了一种基于指令的方法来增强 LLMs 以更好地实现这三个目标。进一步的分析显示,解决知识冲突的能力受到知识领域和提示文本等因素的巨大影响,而生成对知识冲突场景的稳健响应仍然是一个开放性的研究问题。
Oct, 2023
我们提出了一种朝着利用检索增强生成(RAG)改进大规模语言模型(LLMs)对私人知识库相关的领域特定和时间敏感查询的事实准确性的端到端系统设计。我们的系统将 RAG 流水线与上游数据集处理和下游性能评估集成在一起。通过使用源自 CMU 广泛资源并以教师模型进行注释的策划数据集对模型进行微调,解决了 LLM 产生的幻觉挑战。我们的实验表明该系统在生成更准确的领域特定和时间敏感查询答案方面的有效性。结果还揭示了使用规模较小和偏斜的数据集进行微调 LLM 的限制。这项研究突出了 RAG 系统在增强 LLMs 表现方面的潜力在知识密集型任务中。我们的代码和模型可在 Github 上找到。
Mar, 2024
通过结合检索式方法和生成模型,提出了 TrojRAG 来识别检索部分(RAG 数据库)的漏洞和攻击,并间接攻击生成部分(LLMs),通过中毒定制内容来实现检索后门和语义操纵,这些攻击可以包括 RAG 的拒绝服务攻击和以触发器为条件的生成 LLMs 的语义操纵。
Jun, 2024
学习改进查询以实现检索增强生成,通过加入外部相关文档,使模型具备显式重写、分解和消歧的能力,并在各种问题回答数据集中取得了优于现有方法的表现。
Mar, 2024