IRSC:用于信息检索的零-shot评估基准,通过语义理解在增强生成场景中应用
通过对Retrieval-Augmented Generation对大型语言模型的影响进行系统调查和评估,本文发现大型语言模型在噪音鲁棒性、负面拒绝、信息整合和对抗性鲁棒性方面存在挑战,表明在将RAG有效应用于大型语言模型方面仍有很长的路要走。
Sep, 2023
基于大型语言模型的检索模型和嵌入式检索模型的结合,对零样本检索问题,即无目标领域标记数据的情况下,综合了生成增强检索和检索增强生成两种范式,并通过新颖的GAR-meets-RAG循环公式在零样本环境中迭代改进检索和重写阶段,实现了对系统召回率的提升和最终精准度的提高。
Oct, 2023
大型语言模型(LLMs)在实际应用中仍面临幻觉、知识更新缓慢和答案透明度不足等挑战。检索增强生成(RAG)是指在LLMs回答问题之前从外部知识库中检索相关信息。该论文概述了LLMs时代RAG的发展范式,总结了三种范式:Naive RAG,Advanced RAG和Modular RAG。同时,它提供了RAG的三个主要组成部分:检索器、生成器和增强方法的摘要和组织,以及每个组件的关键技术。此外,论文讨论了如何评估RAG模型的有效性,并介绍了两种RAG的评估方法、重点指标和能力,以及最新的自动评估框架。最后,从垂直优化、水平可扩展性和RAG的技术堆栈和生态系统三个方面引入了潜在的未来研究方向。
Dec, 2023
整合外部知识到大型语言模型输出,文献调研主要集中于最新方法与之前方法的比较,缺乏广泛的实验比较。本研究通过评估不同检索增强生成方法对检索精度和答案相似性的影响来填补这一空白。研究发现,Hypothetical Document Embedding (HyDE) 和大型语言模型重排能显著提高检索精度。然而,Maximal Marginal Relevance (MMR) 和 Cohere 重排在基线 Naive RAG 系统上没有明显优势,而 Multi-query 方法表现不佳。句窗检索为最有效的检索精度方法,尽管在答案相似性上表现不稳定。研究证实文件摘要索引作为一种有效的检索方法。欢迎学术界进一步探索 RAG 系统的研究,相关资源可通过我们的 GitHub 资源库 ARAGOG 进行进一步调查。
Apr, 2024
Retrieval-Augmented Generation (RAG)是一种合并检索方法和深度学习技术的方法,旨在通过动态整合最新的外部信息解决大型语言模型(LLMs)的静态限制,并通过使用真实世界的数据提供一种成本效益的解决方案来改进LLMs输出的准确性和可靠性。该研究将RAG范式分为四个类别,并从检索的角度提供了详细的视角,同时介绍了RAG的演进和领域的进展。此外,该论文还提出了针对RAG的评估方法,并提出了面临的挑战和未来的研究方向,旨在巩固现有的RAG研究,明确其技术基础,并突出其扩展LLMs的适应性和应用潜力。
Apr, 2024
检视了检索增强型大型语言模型(RA-LLMs)的现有研究,涵盖体系结构、训练策略和应用三个主要技术视角,并介绍了此类模型的基础知识和最新进展,以及它们为大型语言模型(LLMs)带来的实际意义和应用领域的挑战和能力,最后讨论了当前的局限性和未来研究的几个有前途的方向。
May, 2024
Retrieval-Augmented Generation (RAG)系统的评估和分析框架(RGAR)提供了一种基于可测输出和已建立真实性来系统分析RAG系统基准的方法,并讨论了当前基准的局限性和进一步研究的潜在方向。
May, 2024
本研究解决了多语言增强生成任务中嵌入模型性能评估的缺乏。文中提出了IRSC基准及新指标SSCI和RCCI,通过对多种模型的评估,发现并探讨了嵌入模型的跨语言局限性,旨在推动更精确的检索系统的发展。
Sep, 2024
本研究主要解决大型语言模型(LLMs)在生成内容时面临的幻觉、知识陈旧和推理不清等问题。通过检索增强生成(RAG)技术,结合LLMs的内在知识与外部数据库,本文提出了一种新的上下文压缩范式,并分析其演变和当前挑战,为未来的研究方向指明了道路。
Sep, 2024
本研究针对传统检索增强生成(RAG)基准评估中缺乏有效评判标准的问题,提出了一种新颖的方法:通过训练学习排序模型作为“替代”评委,结合RAG评估启发式特征,构建出MIRAGE-Bench,一个标准化的多语言RAG基准。该基准通过评估多达19种多语言关注的模型,显示出高相关性(Kendall Tau ($\tau$) = 0.909),对多语言RAG的研究具有重要影响。
Oct, 2024