学术检索中语言模型的低效性:一个实验性概述
利用 “理想检索” 方法研究检索增强语言模型,评估检索增强对语言模型行为的影响,观察到这些模型在权重保存方面具有更少的世界知识,在理解局部上下文和词间依赖方面表现更好,但在理解全局上下文方面表现更差。
Apr, 2024
本文提出了一种基于语言模型的信息检索算法框架的新方法,并将类似文档群的信息整合进去以提高检索效果;实验结果表明,即使是此新方法中的较简单算法也能优于标准语言模型方法,并且我们的新插值算法在所有测试语料库中均能显著提高精度和召回率表现。
May, 2004
通过检索外部知识数据库,大语言模型在许多知识密集型任务中展示出增强的能力。然而,由于当前检索系统的固有缺陷,存在于排名靠前段落中的信息可能是不相关的。本文全面研究了 LLMs 对不同类型不相关信息在各种条件下的鲁棒性,通过构建高质量的不相关信息框架,展示了当前解决不相关信息的方案在提高 LLMs 对这些干扰的鲁棒性方面存在局限性。
Apr, 2024
通过使用大型语言模型,我们展示了文献检索系统能够达到先进的语义理解能力,显著优于现有系统;我们的方法包括使用大型语言模型生成的领域特定数据来训练检索器和再排名器,此外,我们还利用大型语言模型从检索到的论文参考文献中识别候选项以进一步提高性能;我们使用量子物理学和计算机视觉领域的学术研究人员标注的测试集来评估系统的性能,结果显示 DocReLM 在计算机视觉领域的前十准确率为 44.12%,而 Google Scholar 为 15.69%,在量子物理学中提高到 36.21%,而 Google Scholar 为 12.96%。
May, 2024
本研究通过关键字检索对多种大型语言模型进行评估,发现这些模型在科学文档推理任务中会使用编造的证据来支持预测,利用科学语料库进行预训练无法减轻证据捏造的风险。
Nov, 2023
我们提出了一种迭代检索 - 生成的协作框架,该框架可以利用参数化和非参数化知识,帮助找到正确的推理路径,并显著提高大型语言模型的推理能力。实验结果显示我们的方法优于之前的基线模型,在单跳和多跳问答任务上取得了显著的改进。
Oct, 2023
我们提出了一种新颖的方法,通过从一系列支持文件中选择上下文相关的短语来生成文本,并使用语言学启发式方法初始化训练阐述,并通过迭代的自我增强来加强训练阐述。实验证明,与标准语言模型相比,我们的模型在各种知识密集型任务上不仅表现出色,而且在开放式文本生成中表现出更高的生成质量。我们的模型在 OpenbookQA 上将准确性从 23.47% 提高到 36.27%,在开放式文本生成中的 MAUVE 得分从 42.61% 提高到 81.58%。值得注意的是,我们的模型在几个检索增强基准中实现了最佳性能和最低延迟。总之,我们断言检索是更准确的生成,并希望我们的工作能够鼓励进一步研究这一新的转变。
Feb, 2024