FaaF: RAG 系统评估的事实函数

Mar, 2024

FaaF: Facts as a Function for the evaluation of RAG systems

Vasileios Katranidis, Gabor Barany

TL;DR通过利用语言模型（LM）的函数调用能力和 RAG 事实回忆评估框架，FaaF 方法大幅提高了 LM 识别文本中不支持的事实的能力，相较于指令为基础的方法，同时提高了效率和降低成本。

Abstract

Factual recall from a reference source is crucial for evaluating the performance of retrieval augmented generation (RAG) systems, as it directly probes into the quality of both retrieval and generation. However, it still remains a challenge to perform this evaluation reliably and effic

retrieval augmented generation rag systems fact verification facts as a function lm evaluators

发现论文，激发创造

FoRAG: 面向增强长文本问答的事实性优化检索生成

通过研究网络增强的长格式问答，本文提出了一种新的轮廓增强生成器以实现多方面答案的清晰逻辑，并基于精心设计的双重细粒度 RLHF 框架提出了一种基于事实性优化的检索增强生成方法（FoRAG），在英文和中文基准测试中验证了其优越性。

Jun, 2024

基于框架语义的大型语言模型的实际准确性提升方法: FS-RAG

通过利用框架语义的认知语言学理论进行索引和检索与大型语言模型回答查询相关的事实信息，本研究提出了一种新型的 Retrieval Augmented Generation 扩展方法以减轻大型语言模型输出的事实不准确性，并通过实验证明了这种方法的有效性和自动生成的框架及框架间关系的相关性，显示了框架语义检索的潜力，为这一理论提供了数据驱动的洞见。

Jun, 2024

面向检索增强生成的事实一致性评估：Face4RAG

提出了第一套综合的 FCE 评估基准 Face4RAG，研究了 FCE 方法在不同的 LLMs 上检测错误类型的性能，并提出了新的方法 L-Face4RAG，能够在广泛的任务中显著提高事实一致性检测的性能。

Jul, 2024

FIT-RAG：具备事实信息和标记减少功能的黑盒 RAG

通过利用检索的事实信息并减少标记数，本文提出了一种新颖的黑匣子增益生成框架 FIT-RAG，它能在效果和效率上都取得卓越的表现，并在三个开放领域的问答数据集上进行了验证。

Mar, 2024

Fact-and-Reflection (FaR) 提高大型语言模型的置信度校准

通过探索不同的提示策略对 LLM 的置信度校准的影响以及如何改进，本文提出了 Fact-and-Reflection（FaR）提示法，它通过两个步骤改善 LLM 的校准，同时大幅降低了预期校准误差，并在更自信的场景中还能引发检索增强来解决更难的情况。

Feb, 2024

事实揭示：用于幻觉检测的事实蕴含

介绍了一种新颖的事实推理方法（Factual Entailment），用于检测大型语言模型生成的内容中的事实错误（hallucinations），并提出了一个基准数据集（FACTOID）用于评估和排名语言模型的自动错误产生脆弱性指数（Auto Hallucination Vulnerability Index）。

Mar, 2024

检索增强生成模型评估：一项调查

Retrieval-Augmented Generation (RAG) 系统的评估和分析框架（RGAR）提供了一种基于可测输出和已建立真实性来系统分析 RAG 系统基准的方法，并讨论了当前基准的局限性和进一步研究的潜在方向。

May, 2024

RAGAR: RAG 增强的政治事实检验的虚假识别雷达，基于多模态大语言模型的推理

通过将大型语言模型（LLMs）与基于检索增强生成（RAG）的先进推理技术相结合，本研究提出了两种创新方法（CoRAG 和 ToRAG），以增强多模态事实检验的可靠性和效率。通过分析文本和图像的多模态 LLMs，该研究推动了自动化系统在辨别和对抗错误信息方面的能力。

Apr, 2024

大语言模型的检索增强生成：综述

大型语言模型（LLMs）在实际应用中仍面临幻觉、知识更新缓慢和答案透明度不足等挑战。检索增强生成（RAG）是指在 LLMs 回答问题之前从外部知识库中检索相关信息。该论文概述了 LLMs 时代 RAG 的发展范式，总结了三种范式：Naive RAG，Advanced RAG 和 Modular RAG。同时，它提供了 RAG 的三个主要组成部分：检索器、生成器和增强方法的摘要和组织，以及每个组件的关键技术。此外，论文讨论了如何评估 RAG 模型的有效性，并介绍了两种 RAG 的评估方法、重点指标和能力，以及最新的自动评估框架。最后，从垂直优化、水平可扩展性和 RAG 的技术堆栈和生态系统三个方面引入了潜在的未来研究方向。

Dec, 2023

自我反思：学习通过检索、生成和评论

通过检索和自我反思，Self-RAG 框架提高了语言模型的质量和准确性，在多样任务中显著优于其他模型。

Oct, 2023