通过基础归属和拒绝学习来测量和提升RAG中大型语言模型的可信度

Sep, 2024

通过基础归属和拒绝学习来测量和提升RAG中大型语言模型的可信度

Measuring and Enhancing Trustworthiness of LLMs in RAG through Grounded Attributions and Learning to Refuse

Maojia Song, Shang Hong Sim, Rishabh Bhardwaj, Hai Leong Chieu, Navonil Majumder...

TL;DR本研究针对检索增强生成（RAG）系统中大型语言模型（LLMs）的适用性缺乏研究的空白，提出了一种新的指标“信任评分”，以全面评估LLMs的可信度。文章提出的“信任对齐”框架能有效提升LLMs的信任评分，经过对比，使用该方法对齐的LLaMA-3-8b在多个任务上显著超越同类开源模型。

Abstract

LLMs are an integral part of Retrieval-Augmented Generation (RAG) systems. While many studies focus on evaluating the quality of end-to-end RAG systems, there is a lack of research on understanding the appropriateness of an LLM for the RAG task. Thus, we introduce a new metric, Trust-S

发现论文，激发创造

值得信赖的LLM：评估大型语言模型的对齐性的调查和指南

为了确保大型语言模型在实际应用中与人类意图保持一致，本研究介绍了对LLM值得信赖性进行评估时需要考虑的关键维度，包括对LLM的可靠性、安全性、公平性、抵抗滥用性、可解释性和推理性、遵守社会规范以及鲁棒性进行调查研究。通过对几个广泛使用的LLM进行测试，研究结果表明，总体上，更加符合人类意图的模型在整体可信度方面表现更好，但是模型对不同可信度类别的影响程度有所不同，这凸显了在LLM对齐方面进行更加细致的分析、测试和不断改进的重要性。本研究旨在为该领域的从业人员提供有价值的见解和指导，理解和解决这些问题对于在各种应用中实现可靠和符合伦理的LLM部署至关重要。

Aug, 2023

TrustScore: 无需参考的LLM响应可信度评估

本研究提出了基于行为一致性概念的TrustScore框架，用于评估大型语言模型（LLMs）的响应与其内在知识的一致性，同时能够与事实核实方法无缝集成，实现与人类判断强相关性的结果。

Feb, 2024

利用RAG提高LLM事实准确性以应对幻觉：私有知识库中领域特定查询的案例研究

我们提出了一种朝着利用检索增强生成（RAG）改进大规模语言模型（LLMs）对私人知识库相关的领域特定和时间敏感查询的事实准确性的端到端系统设计。我们的系统将RAG流水线与上游数据集处理和下游性能评估集成在一起。通过使用源自CMU广泛资源并以教师模型进行注释的策划数据集对模型进行微调，解决了LLM产生的幻觉挑战。我们的实验表明该系统在生成更准确的领域特定和时间敏感查询答案方面的有效性。结果还揭示了使用规模较小和偏斜的数据集进行微调LLM的限制。这项研究突出了RAG系统在增强LLMs表现方面的潜力在知识密集型任务中。我们的代码和模型可在Github上找到。

Mar, 2024

并非所有语境平等：教授LLMs信任感感知生成

本研究提出了一个通用的CAG框架，旨在减轻RAG模型中引入的错误信息对生成结果的影响。通过创新的数据转换框架生成基于可靠性的数据，使模型具备辨别和处理信息可靠性的能力。实验证明，该模型在生成中能够有效理解和利用可靠性，显著优于其他带有检索增强的模型，并对噪声文档引起的干扰表现出韧性，从而保持稳健的性能。此外，该模型支持定制的可靠性，有广泛的潜在应用。

Apr, 2024

提升LLMs的信任度：比较和解释LLMs的算法

评估技术在提高大规模语言模型（LLM）的可信度和理解性方面起到了至关重要的作用，通过算法方法和评估指标来评估LLM的性能，发现其弱点，并引导其发展以实现更可信赖的应用。

Jun, 2024

信任与准确性的故事：基础 vs. 指导 LLMs 在RAG系统中

检索增强生成（RAG）是人工智能领域的重大进展，它将检索阶段与生成阶段相结合，后者通常由大型语言模型（LLMs）驱动。与常见做法相反，我们的研究表明，在我们的实验设置下，基础模型在RAG任务中表现比指导模型平均提高了20％。这一发现挑战了人们对于指导型LLMs在RAG应用中卓越性的普遍观点。进一步的调查揭示了更加微妙的情况，对RAG的基本方面提出了疑问，并提出了有关这一主题的更广泛讨论的需要。

Jun, 2024

理解LLM的需求：双重偏好对齐的检索增强生成

DPA-RAG是一种用于对齐Retrieval-Augmented Generation系统中不同知识偏好的通用框架，通过引入查询增强策略和构建偏好知识管道解决了偏好数据稀缺的问题，并在实验证明其优于其他基线系统以及能够无缝集成黑盒和开源的大型语言模型读者。

Jun, 2024

Pistis-RAG: 一种可扩展的层级框架用于可信的检索增强生成

使用Pistis-RAG框架以及内容为中心的方法，通过改进排序阶段，提高了检索增强生成系统的性能，并且能够更好地对鲜为人知的UI交互进行建模以及处理。

Jun, 2024

检索增强生成系统的可信性研究

本研究针对检索增强生成(RAG)系统的可信性问题进行探讨，这是一项在大型语言模型(LLMs)发展中日益重要的研究领域。我们提出了一个统一框架，从事实性、鲁棒性、公平性、透明性、问责性和隐私六个维度评估RAG系统的可信性，并通过文献回顾和基准评估，为提高RAG系统在实际应用中的可信性提供了实用见解和未来研究的挑战。

Sep, 2024

细粒度指导检索器：利用大型语言模型的反馈进行检索增强生成

本研究解决了在检索增强生成（RAG）中检索器与大型语言模型（LLMs）偏好信号之间的对齐问题，提出了FiGRet框架，通过构建易于理解的示例，从更细致的信息中心视角指导检索器学习。实验表明，该方法显著提升了配备不同检索器的RAG系统的性能，具有广泛的适用性。

Nov, 2024