评估 RAG-Fusion 与 RAGElo:自动基于 Elo 的框架
通过评估新兴的 RAG-Fusion 方法,本研究发现 RAG-Fusion 通过生成多个查询、使用互惠评分对其进行重新排名并融合文档和得分,从多个角度对原始查询进行了上下文化,使其能够提供准确和全面的答案。然而,在生成查询与原始查询关联度不足时,部分答案可能偏离主题。该研究在人工智能和自然语言处理应用中取得了重大进展,并展示了全球和多行业背景下的转变。
Jan, 2024
我们介绍了 RAGAs(检索增强生成评估)框架,用于无参考评估检索增强生成(RAG)流程,并提出一套可以用来评估不同维度的指标,而无需依赖于人工标注的真值,这对于 RAG 体系结构的快速评估是至关重要的,尤其是考虑到 LLMs 的快速采用。
Sep, 2023
大型语言模型(LLMs)在实际应用中仍面临幻觉、知识更新缓慢和答案透明度不足等挑战。检索增强生成(RAG)是指在 LLMs 回答问题之前从外部知识库中检索相关信息。该论文概述了 LLMs 时代 RAG 的发展范式,总结了三种范式:Naive RAG,Advanced RAG 和 Modular RAG。同时,它提供了 RAG 的三个主要组成部分:检索器、生成器和增强方法的摘要和组织,以及每个组件的关键技术。此外,论文讨论了如何评估 RAG 模型的有效性,并介绍了两种 RAG 的评估方法、重点指标和能力,以及最新的自动评估框架。最后,从垂直优化、水平可扩展性和 RAG 的技术堆栈和生态系统三个方面引入了潜在的未来研究方向。
Dec, 2023
我们提出了一种全面评估检索增强生成(RAG)应用中答案质量的方法,使用 vRAG-Eval,这是一种新的评分系统,旨在评估正确性、完整性和诚实性。我们进一步将前述质量方面的评分转化为一个二进制分数,表示接受或拒绝的决策,反映了常用于聊天应用的直观 “赞” 或 “踩” 的手势。我们将 vRAG-Eval 应用于两个大型语言模型(LLM),评估由基本 RAG 应用生成的答案的质量。我们将这些评估与人类专家判断进行比较,并发现 GPT-4 的评估结果与人类专家的评判具有显著一致性,在接受或拒绝的决策上达成 83% 的一致。这项研究突出了 LLM 在封闭领域、封闭式问题设置中作为可靠评估者的潜力,特别是当人工评估需要大量资源时。
Jun, 2024
提出了一种新颖的 “Collaborative Retrieval-Augmented Generation” 框架 DuetRAG,以同时整合领域微调和 RAG 模型,提高知识检索质量,从而提高生成质量。最后,在 HotPot QA 上展示了 DuetRAG 与专业人类研究人员的匹配。
May, 2024
学习改进查询以实现检索增强生成,通过加入外部相关文档,使模型具备显式重写、分解和消歧的能力,并在各种问题回答数据集中取得了优于现有方法的表现。
Mar, 2024
评估检索增强生成(RAG)面临挑战,传统的端到端评估方法计算开销高,我们提出了一种新的评估方法 eRAG,通过使用每个检索列表中的文档,基于下游任务的真实标签评估生成的输出。实验证明 eRAG 与下游 RAG 的性能呈较高相关性,并且具有显著的计算优势。
Apr, 2024
检验 Retrieval-Augmented Generation (RAG)在特定领域环境中的能力与效果,评估存在的限制并寻求改进的研究。
Jun, 2024
Retrieval-Augmented Generation (RAG) 系统的评估和分析框架(RGAR)提供了一种基于可测输出和已建立真实性来系统分析 RAG 系统基准的方法,并讨论了当前基准的局限性和进一步研究的潜在方向。
May, 2024
我们提出了一种新的方法来衡量检索增强的大型语言模型(RAG)的任务特定准确性。通过对与任务相关的文档语料库基于多项选择问题评分的自动生成合成考试来进行评估。我们的方法是自动化、成本高效、可解释和稳健的选择 RAG 系统的最佳组件的策略。我们利用项目反应理论(IRT)估计考试的质量和信息量,以提高任务特定准确性。我们在四个基于 Arxiv 摘要、StackExchange 问题、AWS DevOps 故障排除指南和 SEC 文件的新型开放问答任务上演示了我们的方法。此外,我们的实验揭示了影响 RAG 性能的更一般的因素,如大小、检索机制、提示和微调。最重要的是,我们的研究结果表明,选择正确的检索算法通常比仅仅使用更大的语言模型能够带来更大的性能收益。
May, 2024