检测争议话题中检索增强生成模型中的虚构和覆盖错误

COLINGMar, 2024

检测争议话题中检索增强生成模型中的虚构和覆盖错误

Detecting Hallucination and Coverage Errors in Retrieval Augmented Generation for Controversial Topics

Tyler A. Chang, Katrin Tomanek, Jessica Hoffmann, Nithum Thain, Erin van Liemt...

TL;DR基于维基百科的中立观点原则，我们探索了一种应对 LLM 聊天机器人中有争议话题的策略：承认单一真实答案的缺失，并呈现多个观点。我们将其框架为检索增强生成，其中观点从知识库中检索出来，LLM 的任务是从给定的观点中生成流畅而忠实的回应。我们使用一种确定性的检索系统作为起点，然后关注在这种文本生成方法中出现的常见 LLM 故障模式，即幻觉和覆盖错误。我们提出并评估了三种基于（1）词重叠，（2）重要性和（3）基于 LLM 的分类器来检测这些错误的方法。我们的结果表明，即使只在合成错误上进行训练，基于 LLM 的分类器在错误检测性能上也能达到很高的水平，幻觉检测的 ROC AUC 得分为 95.3％，覆盖错误检测为 90.5％（对于明确的错误案例）。我们展示了当没有可用的训练数据时，我们的其他方法在幻觉检测（84.0％）和覆盖错误检测（85.2％）上仍然产生良好的结果。

Abstract

We explore a strategy to handle controversial topics in llm-based chatbots based on Wikipedia's neutral point of view (NPOV) principle: ac

controversial topics llm-based chatbots neutral point of view retrieval augmented generation error detection

发现论文，激发创造

大型语言模型中幻觉缓解技术的综合调查

这篇论文综述了 32 种技术，旨在减轻大型语言模型中的幻觉问题，其中包括检索增强生成、知识检索、CoNLI 和 CoVe 等方法，并提出了基于数据集利用、常见任务、反馈机制和检索器类型等参数的分类方法，以区分专门设计用于解决大型语言模型幻觉问题的各种方法。此外，还分析了这些技术中存在的挑战和局限性，为未来研究提供了坚实的基础。

Jan, 2024

基于 LLM 的引文增强生成技术的聊天机器人

我们提出了一种新颖的后置 extbf {引用增强生成（ extbf {CEG}）} 方法，结合检索论证。与先前的研究不同，我们的方法并不着重于在生成过程中防止幻觉，而是采用后置方式解决这个问题。我们的模型包括一个检索模块，用于搜索与生成内容相关的支持文档，并采用基于自然语言推理的引文生成模块。如果生成内容中的陈述缺乏参考文献，我们的模型可以重复生成回复，直到所有陈述都有引文支持。在各种与幻觉相关的数据集上的实验证明，我们的框架在幻觉检测和回复重构两个基准上优于现有方法。我们的代码和数据集将公开提供。

Feb, 2024

增强基于不确定性的错觉检测与更强的关注

本文提出了一种新颖的无参考、基于不确定性的大语言模型 (LLM) 幻觉检测方法，通过关注给定文本中最具信息和重要性的关键词、历史上不可靠的标记以及标记属性（如类型和频率），实现了最新的检测方法，消除了对额外信息的需求。

Nov, 2023

分类和减轻 LLMs 的幻觉的洞察力

本文阐述了人工智能幻觉的根本原因及其在人工智能中的重要意义，并就幻觉分类进行了研究，包括机器翻译、问答系统、对话系统、摘要系统、基于大语言模型的知识图谱以及视觉问答等多个任务。同时，本研究探讨了缓解幻觉的潜在策略，旨在提高大语言模型的整体可靠性。该研究属于 HeReFaNMi（Health-Related Fake News Mitigation）项目的一部分，该项目得到 NGI Search 的慷慨支持，旨在抑制互联网上健康相关虚假新闻的传播，致力于在不断演进的人工智能技术时代保护信息传播的完整性。

Nov, 2023

通过自我反思来缓解大型语言模型中的幻想

通过与大规模语言模型和数据集合作，本文分析了医学生成型问答系统中幻觉现象的问题，并提出了一种交互自我反思的方法来解决该挑战，最终实验证明该方法在幻觉减少方面优于基线模型。

Oct, 2023

幻觉检测与幻觉减缓：一项研究

大型语言模型（如 ChatGPT、Bard 和 Llama）在不同领域的应用中取得了显著的成功。然而，虚假生成是限制其广泛应用的关键问题。本报告意在综述虚假生成检测和虚假生成减轻的现有文献，旨在为对大型语言模型和将其应用于实际任务感兴趣的工程师和研究人员提供参考。

Jan, 2024

寻求真相：一种审问方法用于幻觉检测

通过多个数据集和大型语言模型，包括 Llama-2，对该模型的幻觉水平进行广泛评估，并展示了我们的方法在自动检测幻觉方面的有效性，达到了 87% 的平衡准确率，而无需依赖外部知识。

Mar, 2024

基于幻觉增强对比学习的多模态大型语言模型

本文从表示学习的新角度解决了多模态大型语言模型中的幻觉问题，并通过引入对比学习的方法，在多个基准测试中证明了减少幻觉和提高性能的有效性。

Dec, 2023

大规模语言模型生成中的幻觉检测：基于词元概率的方法

使用两个简单的分类器和从其他 LLM 评估器获得的四个数值特征，本文引入了一种监督学习方法，取得了有希望的结果，并在三个不同基准测试中超越了当前最先进的成果。

May, 2024

基于马尔可夫链的多主体辩论框架用于检测 LLM 虚构

我们提出了基于马尔可夫链的多代理辩论验证框架，用于增强简要声明中的错误检测准确性，并通过包括声明检测、证据检索和多代理验证在内的事实检查过程集成验证的方法。实验证明，我们的方法在三个生成任务中相比基准线实现了显著改进。

Jun, 2024