提升检索增强语言模型对无关背景的鲁棒性
该论文提出了一种名为 In-Context RALM 的新方法,将基础语料库中的相关文档作为输入前缀添加到语言模型中,实现对外部信息的整合而无需改变模型结构,并证实其在各种场景下的性能提升,从而增加了语言模型的普适性。
Jan, 2023
大型语言模型与检索增强语言模型结合,提供了一个全面的概述,探讨了它们的范式、演化、分类和应用,以及其中关键组件如检索器、语言模型和增强部分,同时讨论了其在多个任务中的效用和评估方法,以及未来研究的方向。
Apr, 2024
本文通过系统调查研究,评估了检索增强型大型语言模型在 5 个不同的生物医学任务(三元组抽取、链接预测、分类、问题回答和自然语言推理)中的影响,并在医学领域建立了四个不同的测试组,测试了三个代表性的大型语言模型与三个不同的检索器在 9 个数据集上的性能。
May, 2024
通过评估各种大规模语言模型的 “隐式” 检索鲁棒性,我们发现混合了黄金和干扰性上下文进行微调显著提高了模型对检索不准确性的鲁棒性,同时仍然保持着在检索准确时提取正确答案的能力,这表明大规模语言模型可以通过仅从最终答案的监督中学习来隐式处理相关或无关的检索上下文,并且引入显式相关性判断的额外过程可能是不必要的并且会打断端到端的方法。
Jun, 2024
综合检索增强的大型语言模型,在研究表明事实性方面较优越,但并不始终优于原始的无检索语言模型。我们的实验揭示了这种例级性能不一致不仅存在于检索增强和无检索语言模型之间,而且在不同的检索器之间也存在。为了理解这一现象,我们对综合检索增强的大型语言模型进行了退化行为研究,并在理论上将其分解为四个类别。根据我们的分解进一步分析表明,知识源的固有差异和读者模型的不可预测的退化对这种不一致性起到了主要贡献。根据我们的分析,我们引入了可训练的综合检索器框架(EoR),该框架可以从不同的知识源自适应地检索,并且可以有效地减少不可预测的读者错误。我们在开放域问题回答方面的实验证明,EoR 显著改善了单个检索器的 RALM 的性能,并大幅减少了不一致的行为。
May, 2024
本研究通过关键字检索对多种大型语言模型进行评估,发现这些模型在科学文档推理任务中会使用编造的证据来支持预测,利用科学语料库进行预训练无法减轻证据捏造的风险。
Nov, 2023
通过提出一种名为增强检索增强机器学习(RRAML)的新型框架,将大型语言模型的推理能力与用户提供的数据库中的检索信息相结合,有效地解决了 API 文本输入的上下文限制和外部数据源可用性的局限性。
Jul, 2023
通过在推理过程中引入大规模数据存储,检索增强的语言模型(retrieval-augmented LMs)可以更可靠、适应性更强且更具可追溯性,然而目前在超越知识密集型任务(如问答)以外的领域,检索增强的语言模型尚未被广泛采用,这需要重新考虑数据存储和检索器、改进检索器和语言模型组件之间的交互以及在高效训练和推理方面进行大规模投资。
Mar, 2024
这项研究将大型语言模型与检索增强生成相结合,提出了一种名为 RAAT 的新的检索增强自适应对抗训练方法,通过适应性对抗训练动态调整模型的训练过程以应对检索噪声,并通过多任务学习确保模型内部识别噪声上下文的能力。实验证明,使用 RAAT 训练的 LLaMA-2 7B 模型在不同噪声条件下显著提高了 F1 和 EM 分数。
May, 2024
利用外部知识源降低大型语言模型产生的事实幻觉,检索增强生成(RAG)通过对不同语言家族的全面评估,建立 NoMIRACL 数据集来评估 RAG 中 LLM 的鲁棒性。
Dec, 2023