FaaF: RAG 系统评估的事实函数
通过研究网络增强的长格式问答,本文提出了一种新的轮廓增强生成器以实现多方面答案的清晰逻辑,并基于精心设计的双重细粒度 RLHF 框架提出了一种基于事实性优化的检索增强生成方法(FoRAG),在英文和中文基准测试中验证了其优越性。
Jun, 2024
通过利用框架语义的认知语言学理论进行索引和检索与大型语言模型回答查询相关的事实信息,本研究提出了一种新型的 Retrieval Augmented Generation 扩展方法以减轻大型语言模型输出的事实不准确性,并通过实验证明了这种方法的有效性和自动生成的框架及框架间关系的相关性,显示了框架语义检索的潜力,为这一理论提供了数据驱动的洞见。
Jun, 2024
提出了第一套综合的 FCE 评估基准 Face4RAG,研究了 FCE 方法在不同的 LLMs 上检测错误类型的性能,并提出了新的方法 L-Face4RAG,能够在广泛的任务中显著提高事实一致性检测的性能。
Jul, 2024
通过利用检索的事实信息并减少标记数,本文提出了一种新颖的黑匣子增益生成框架 FIT-RAG,它能在效果和效率上都取得卓越的表现,并在三个开放领域的问答数据集上进行了验证。
Mar, 2024
通过探索不同的提示策略对 LLM 的置信度校准的影响以及如何改进,本文提出了 Fact-and-Reflection(FaR)提示法,它通过两个步骤改善 LLM 的校准,同时大幅降低了预期校准误差,并在更自信的场景中还能引发检索增强来解决更难的情况。
Feb, 2024
介绍了一种新颖的事实推理方法(Factual Entailment),用于检测大型语言模型生成的内容中的事实错误(hallucinations),并提出了一个基准数据集(FACTOID)用于评估和排名语言模型的自动错误产生脆弱性指数(Auto Hallucination Vulnerability Index) 。
Mar, 2024
Retrieval-Augmented Generation (RAG) 系统的评估和分析框架(RGAR)提供了一种基于可测输出和已建立真实性来系统分析 RAG 系统基准的方法,并讨论了当前基准的局限性和进一步研究的潜在方向。
May, 2024
通过将大型语言模型(LLMs)与基于检索增强生成(RAG)的先进推理技术相结合,本研究提出了两种创新方法(CoRAG 和 ToRAG),以增强多模态事实检验的可靠性和效率。通过分析文本和图像的多模态 LLMs,该研究推动了自动化系统在辨别和对抗错误信息方面的能力。
Apr, 2024
大型语言模型(LLMs)在实际应用中仍面临幻觉、知识更新缓慢和答案透明度不足等挑战。检索增强生成(RAG)是指在 LLMs 回答问题之前从外部知识库中检索相关信息。该论文概述了 LLMs 时代 RAG 的发展范式,总结了三种范式:Naive RAG,Advanced RAG 和 Modular RAG。同时,它提供了 RAG 的三个主要组成部分:检索器、生成器和增强方法的摘要和组织,以及每个组件的关键技术。此外,论文讨论了如何评估 RAG 模型的有效性,并介绍了两种 RAG 的评估方法、重点指标和能力,以及最新的自动评估框架。最后,从垂直优化、水平可扩展性和 RAG 的技术堆栈和生态系统三个方面引入了潜在的未来研究方向。
Dec, 2023