评估语义搜索及其在阿拉伯语检索增强生成(RAG)中的作用
Retrieval-Augmented Generation (RAG) 系统的评估和分析框架(RGAR)提供了一种基于可测输出和已建立真实性来系统分析 RAG 系统基准的方法,并讨论了当前基准的局限性和进一步研究的潜在方向。
May, 2024
整合外部知识到大型语言模型输出,文献调研主要集中于最新方法与之前方法的比较,缺乏广泛的实验比较。本研究通过评估不同检索增强生成方法对检索精度和答案相似性的影响来填补这一空白。研究发现,Hypothetical Document Embedding (HyDE) 和大型语言模型重排能显著提高检索精度。然而,Maximal Marginal Relevance (MMR) 和 Cohere 重排在基线 Naive RAG 系统上没有明显优势,而 Multi-query 方法表现不佳。句窗检索为最有效的检索精度方法,尽管在答案相似性上表现不稳定。研究证实文件摘要索引作为一种有效的检索方法。欢迎学术界进一步探索 RAG 系统的研究,相关资源可通过我们的 GitHub 资源库 ARAGOG 进行进一步调查。
Apr, 2024
通过结合知识检索,改进大型语言模型的输出的准确性和相关性的检索增强生成(RAG)在企业中的实施面临数据安全、准确性、可扩展性和集成方面的挑战。本文探讨了企业 RAG 的独特需求,调查了当前方法和限制,并讨论了语义搜索、混合查询和优化检索的潜在进展。它提出了一个评估框架,以验证企业 RAG 解决方案的能力,包括定量测试、定性分析、消融研究和行业案例研究。该框架旨在帮助证明面向企业级安全、合规性和集成性能够提供准确性和相关性改进的目的构建的 RAG 架构的能力。本文总结了企业部署的含义、限制和未来研究方向。研究人员与行业合作伙伴之间的密切合作可能加速检索增强生成技术的开发和部署的进展。
May, 2024
基于 Retrieval-Augmented Generation (RAG) 方法,结合语义搜索技术,如稠密向量索引和稀疏编码器索引,以及混合查询策略,我们提出了 ' 混合 RAG' 方法。通过在 IR 数据集和 Generative Q&A 数据集上取得更好的检索结果并创造新的基准,我们进一步将这种 ' 混合 Retriever' 扩展到 RAG 系统,甚至超过 fine-tuning 性能。
Mar, 2024
评估检索增强生成(RAG)面临挑战,传统的端到端评估方法计算开销高,我们提出了一种新的评估方法 eRAG,通过使用每个检索列表中的文档,基于下游任务的真实标签评估生成的输出。实验证明 eRAG 与下游 RAG 的性能呈较高相关性,并且具有显著的计算优势。
Apr, 2024
Retrieval-Augmented Generation (RAG) 是一种合并检索方法和深度学习技术的方法,旨在通过动态整合最新的外部信息解决大型语言模型(LLMs)的静态限制,并通过使用真实世界的数据提供一种成本效益的解决方案来改进 LLMs 输出的准确性和可靠性。该研究将 RAG 范式分为四个类别,并从检索的角度提供了详细的视角,同时介绍了 RAG 的演进和领域的进展。此外,该论文还提出了针对 RAG 的评估方法,并提出了面临的挑战和未来的研究方向,旨在巩固现有的 RAG 研究,明确其技术基础,并突出其扩展 LLMs 的适应性和应用潜力。
Apr, 2024
检索增强生成(RAG)系统在通过领域特定和时间敏感数据增强大型语言模型(LLM)输出方面非常受欢迎。本文提出了一种严格的数据集创建和评估工作流程,从而定量比较了不同的 RAG 策略,用于布尔代理 RAG 设置的开发和评估。我们在线发布了我们的代码和生成的数据集。
Feb, 2024
该论文介绍了 uRAG 框架,它具有一个统一的检索引擎,为多个下游的检索增强生成(RAG)系统提供服务。我们介绍了一种通用的训练指南,用于规范搜索引擎与下游 RAG 系统之间的通信,从而为我们构建一个大规模的实验生态系统奠定基础,该生态系统包括 18 个参与训练的 RAG 系统和 18 个使用 uRAG 作为新用户的未知 RAG 系统。利用这个实验生态系统,我们回答了一些基本的研究问题,以改善我们对为机器开发搜索引擎的承诺和挑战的理解。
Apr, 2024
通过 Retrieval-Augmented Generation (RAG) 技术结合语言模型,本研究以智能技术为背景,探讨解决语言模型中的 “hallucination” 问题,并通过使用 Orca2 模型进行查询优化来提高性能。实证结果显示,在 RAG 的帮助下,初始语言模型的性能得到显著改善,并展示了使用语言模型生成查询的效果。引入 BERT 的 UMAP 技术进一步简化了文档检索过程。
Feb, 2024
利用检索增强生成(RAG)模型揭示互联网上的知识空白的方法论,并通过模拟用户搜索行为,RAG 系统识别和解决信息检索系统中的空白。该研究展示了 RAG 系统在生成相关建议方面的有效性,准确率达到 93%。该方法可以应用于科学发现、教育增强、研究发展、市场分析、搜索引擎优化和内容开发等各个领域。研究结果突出了识别和理解知识空白以指导未来努力的价值。
Dec, 2023