基于 LLM 的问答系统中检索组件的评估
我们提出了一种全面评估检索增强生成(RAG)应用中答案质量的方法,使用 vRAG-Eval,这是一种新的评分系统,旨在评估正确性、完整性和诚实性。我们进一步将前述质量方面的评分转化为一个二进制分数,表示接受或拒绝的决策,反映了常用于聊天应用的直观 “赞” 或 “踩” 的手势。我们将 vRAG-Eval 应用于两个大型语言模型(LLM),评估由基本 RAG 应用生成的答案的质量。我们将这些评估与人类专家判断进行比较,并发现 GPT-4 的评估结果与人类专家的评判具有显著一致性,在接受或拒绝的决策上达成 83% 的一致。这项研究突出了 LLM 在封闭领域、封闭式问题设置中作为可靠评估者的潜力,特别是当人工评估需要大量资源时。
Jun, 2024
基于检索增强生成(RAG)的大规模语言模型(LLMs)在医学领域的知识密集型任务中表现出显著的性能提升,着重研究了利用 LLMs 和 RAG 框架回答基于医药数据库的查询问题,并提出了 Distill-Retrieve-Read 框架用于关键字搜索,实验结果证明了该框架在证据检索准确性方面的优势。
Apr, 2024
我们提出了一个新的桥接模型,并验证了 RAG 中检索器的排序和选择假设,并提出了一个将监督学习和强化学习连接起来的培训框架,在问答和个性化生成任务中证明了我们方法的有效性。
Jan, 2024
本研究通过关键字检索对多种大型语言模型进行评估,发现这些模型在科学文档推理任务中会使用编造的证据来支持预测,利用科学语料库进行预训练无法减轻证据捏造的风险。
Nov, 2023
本文介绍了如何使用大型语言模型(LLMs)有效地学习使用现成的信息检索系统来回答问题时所需的附加上下文。通过在 PopQA 数据集上进行评估,我们展示了 Adapt-LLM 在使用所有问题的信息检索、仅使用 LLM 的参数存储器以及使用人气阈值来决定何时使用检索程序三种配置下,相比相同 LLM 的改进。通过我们的分析,我们证明了当 Adapt-LLM 确定无法回答问题时,它能生成 <RET> 标记,表明需要进行信息检索,同时当只依赖参数存储器时,其达到明显高的准确率水平。
Apr, 2024
本研究提出了一个新颖的适应性问答框架,可以根据查询的复杂性动态选择最合适的策略,该策略可在回答问题时无缝地在迭代和单步检索增强型大型语言模型之间进行调整,同时适应多种查询复杂性,提高问答系统的效率和准确性。
Mar, 2024
通过改进文本检索过程,本文探讨了 RAG 管道的现有限制并引入了提升文本检索的方法,包括先进的文本切块技术、查询扩展、元数据注释的应用、重新排序算法以及嵌入算法的微调。通过实施这些方法可以大幅提高检索质量,从而提升 LLM 在处理和响应查询时的整体效果和可靠性。
Mar, 2024
检视了检索增强型大型语言模型(RA-LLMs)的现有研究,涵盖体系结构、训练策略和应用三个主要技术视角,并介绍了此类模型的基础知识和最新进展,以及它们为大型语言模型(LLMs)带来的实际意义和应用领域的挑战和能力,最后讨论了当前的局限性和未来研究的几个有前途的方向。
May, 2024
使用 PaperQA,通过对科学文献进行信息检索,评估来源和段落的相关性,并利用 RAG 提供答案的方法,超越现有的 LLMs 和 LLM 代理在当前科学问答基准测试上的表现,使得该代理模型能够进行大规模、系统化的科学知识处理。
Dec, 2023
使用学习排序技术结合不同的信息检索系统,解决大型语言模型中幻觉和过时信息的问题,提高检索问题回答任务的性能,并在 SQuAD 数据集上取得了最先进的结果。
Jun, 2024