朝着公平的检索增强生成:公平排序对检索增强生成的影响
我们介绍了RAGAs(检索增强生成评估)框架,用于无参考评估检索增强生成(RAG)流程,并提出一套可以用来评估不同维度的指标,而无需依赖于人工标注的真值,这对于RAG体系结构的快速评估是至关重要的,尤其是考虑到LLMs的快速采用。
Sep, 2023
Retrieval-Augmented Generation (RAG)系统的评估和分析框架(RGAR)提供了一种基于可测输出和已建立真实性来系统分析RAG系统基准的方法,并讨论了当前基准的局限性和进一步研究的潜在方向。
May, 2024
使用Pistis-RAG框架以及内容为中心的方法,通过改进排序阶段,提高了检索增强生成系统的性能,并且能够更好地对鲜为人知的UI交互进行建模以及处理。
Jun, 2024
RAGBench是首个包含10万个有标签RAG系统实例的综合型大规模评估基准数据集,覆盖了五个独特的行业特定领域和各种RAG任务类型,并引入了可解释和可操作的RAG评估指标集TRACe。
Jun, 2024
本文解决了增强检索生成(RAG)系统在评估时面临的模块化特性和评估信度等挑战,提出了一种细粒度评估框架RAGChecker。通过元评估,RAGChecker在与人类判断的相关性上显著优于其他评估指标,能够为研究人员和从业者设计更有效的RAG系统提供指导。
Aug, 2024
本研究针对增强检索生成(RAG)系统缺乏全面评估的问题,提出了细粒度评估框架RAGChecker,结合了一系列用于检索和生成模块的诊断指标。研究发现RAGChecker与人类判断的相关性显著优于其他评估指标,并通过对8个RAG系统的评估和深入分析,揭示了RAG架构设计的模式和权衡,能够指导研究人员和实践者开发更有效的RAG系统。
Aug, 2024
本研究针对检索增强生成(RAG)系统的可信性问题进行探讨,这是一项在大型语言模型(LLMs)发展中日益重要的研究领域。我们提出了一个统一框架,从事实性、鲁棒性、公平性、透明性、问责性和隐私六个维度评估RAG系统的可信性,并通过文献回顾和基准评估,为提高RAG系统在实际应用中的可信性提供了实用见解和未来研究的挑战。
Sep, 2024
本研究针对检索增强生成(RAG)模型在开放领域问答任务中的公平性缺口进行了探讨,尤其是与性别、地理位置和其他人口因素相关的敏感属性。我们提出了一个专门针对RAG方法的公平性评估框架,通过情境问题分析不同人口属性之间的差异。实验结果表明,尽管在实用性优化上取得了一定进展,但在检索和生成阶段仍存在公平性问题,这强调了在RAG管道中需要更有针对性的公平性干预。
Sep, 2024
本研究探讨了检索增强生成(RAG)对大型语言模型(LLMs)公平性的影响,揭示了在用户对公平性意识的不同水平下,RAG如何导致不公平结果。我们通过实验证明,即使在完全审查和声称无偏的数据集上,RAG也会导致有偏见的输出,因此需要新的策略来确保公平性。
Oct, 2024
本研究解决了检索增强生成系统评价中的数据多样性不足及问题定位困难等挑战。我们提出了Comprehensive Full-chain Evaluation (CoFE-RAG)框架,通过引入多粒度关键词以及全面的数据集,以评估RAG系统的各个阶段。该框架的实验结果显示了RAG系统在处理多样化数据场景中的有效性,为其能力和局限性提供了更细致的理解。
Oct, 2024