抽取长文档中的长对象列表的增强检索语言模型
本研究通过关键字检索对多种大型语言模型进行评估,发现这些模型在科学文档推理任务中会使用编造的证据来支持预测,利用科学语料库进行预训练无法减轻证据捏造的风险。
Nov, 2023
本论文设计了一种评估过滤框架,将大型语言模型与小型模型整合在一起,用于处理关系三元组提取任务,以获得更准确的提取结果。评估模型能够高精度提取相关实体对,并通过简单的标注原则和深度神经网络对模型进行嵌入,将输出作为提示加入到大型模型的提取过程中。通过大量实验证明,该方法可以帮助大型语言模型从含有多个关系三元组的复杂句子中获得更准确的提取结果,同时也能够嵌入传统提取模型以提高其从复杂句子中的提取准确率。
Apr, 2024
通过使用相同的证据文档比较使用不同检索增强模型生成的答案,分析了检索增强对不同语言模型的影响,以及检索文档集的质量对相同语言模型生成的答案的影响。研究了生成答案的各种属性(如流利度、长度、差异等),重点是将生成的长篇答案与上下文证据文档进行归因。我们收集了对答案归因的人工注释,并评估了自动判断归因的方法。研究结果揭示了检索增强对基于语言模型的长篇、知识丰富文本生成的影响,分析了归因错误的主要原因,为未来的研究提供了方向。
Oct, 2023
通过研究使用两种最先进的预训练大型语言模型进行检索增强和长上下文窗口的解决方案,我们发现使用简单的检索增强在生成时可以实现与微调后的具有 16K 上下文窗口通过位置插值在长上下文任务上具有可比性能的 4K 上下文窗口的大型语言模型,而计算量较小。此外,我们证明检索可以显著提高大型语言模型的性能,而不受其扩展上下文窗口大小的限制。我们的最佳模型,检索增强的 32K 上下文窗口的 LLaMA2-70B,在 7 个长上下文任务中,包括问答和基于查询的摘要,的平均得分方面优于 GPT-3.5-turbo-16k 和 Davinci003。它还在生成速度上优于其非检索的 LLaMA2-70B-32k 基线。我们的研究为从业者提供了关于选择检索增强与扩展大型语言模型的长上下文的一般见解。
Oct, 2023
通过多轮检索策略从网络源自动抽取关键证据进行主张验证的检索增强 LLMs 框架是第一种能自动地并有目的性地从网页信息中提取关键证据的框架,通过在三个现实世界数据集上进行全面的实验证明了该框架对现有方法的优越性。重要的是,我们的模型不仅提供准确的结论,还提供可读的解释,以提高结果的可解释性。
Mar, 2024
本研究论文探讨了扩展的检索方法用于个性化大型语言模型,通过两种优化算法从下游任务获取反馈进行检索优化,并引入了一个预生成和后生成的检索模型来决定每个语言模型输入应选择哪个检索器。在多个任务中进行了大量实验,并获得了显著的统计结果。
Apr, 2024
通过研究大型语言模型的自身限制以及外部信息检索的有效性,本研究构建了一个新的问答数据集 WiTQA,以探索实体和关系的组合对于信息检索和知识回忆方面的影响,从而提出了一个基于实体和关系频率的自适应检索系统。
Feb, 2024
通过预训练的语言模型 (LMs) latent language representations 的普遍使用表明它们是一种有希望的结构化知识的来源。然而,现有方法只关注每对主体 - 关系中的一个对象,尽管经常有多个对象都是正确的。为了克服这个限制,我们分析这些表示的潜力,以产生实体化的多对象关系知识。我们将问题表述为一个排名 - 选择任务。对于排名候选对象,我们评估现有的提示技术,并提出融入领域知识的新技术。在选择方法中,我们发现选择具有高于学得的关系特定阈值的对象可得到 49.5% 的 F1 得分。我们的结果突显了使用 LMs 进行多值插槽填充任务的难度,为从潜在语言表示中提取关系知识的进一步研究铺平了道路。
Jul, 2023
本文介绍了一种名为 ChatLR 的新型检索增强框架,主要利用大型语言模型(LLMs)的强大语义理解能力作为检索器,以实现精确和简洁的信息检索。通过在金融领域微调 LLM 并构建基于 LLM 的搜索和问答系统,实验证明 ChatLR 在解决用户查询中表现出高达 98.8%的信息检索准确性。
May, 2024
本文研究了利用大型语言模型(LLMs)预训练阶段存储的参数化知识,独立地从任意起始位置检索参考段落的方法,并提出了一个模拟人类检索易被遗忘参考的两阶段框架。实验证明,LLMs 能够独立检索各种任务形式中的参考段落位置,并且获取的参考对下游任务产生了显著帮助。
Feb, 2024