事实揭示：用于幻觉检测的事实蕴含

Mar, 2024

事实揭示：用于幻觉检测的事实蕴含

FACTOID: FACtual enTailment fOr hallucInation Detection

Vipula Rawte, S.M Towhidul Islam Tonmoy, Krishnav Rajbangshi, Shravani Nag, Aman Chadha...

TL;DR介绍了一种新颖的事实推理方法（Factual Entailment），用于检测大型语言模型生成的内容中的事实错误（hallucinations），并提出了一个基准数据集（FACTOID）用于评估和排名语言模型的自动错误产生脆弱性指数（Auto Hallucination Vulnerability Index）。

Abstract

The widespread adoption of large language models (LLMs) has facilitated numerous benefits. However, hallucination is a significant concern. In response, retrieval augmented generation (RAG) has emerged as a highl

large language models retrieval augmented generation hallucinations factual entailment auto hallucination vulnerability index

发现论文，激发创造

大型语言模型中最小化事实不一致和幻觉

提出了一个多阶段的框架，通过生成合理的依据并验证修正错误，将其作为支持参考生成答案，提高了 GPT-3.5-turbo 在生命科学行业药物相关查询中的响应质量。该框架使得 GPT-3.5-turbo 对两个数据集的答案更可靠和准确，并通过与商业模型进行竞争，提高了小型开放访问的 LLMs 的准确性。

Nov, 2023

RAGTruth: 开发可信赖的检索增强语言模型的幻觉语料库

本文介绍了用于分析不同领域和任务中基于检索增强生成（RAG）大型语言模型（LLMs）中词级幻觉的 RAGTruth，这是一个用于测量幻觉程度的基准数据集，并评估了多种现有的幻觉检测方法，在幻觉检测方面，通过使用高质量的数据集如 RAGTruth，可以对相对较小的 LLM 进行微调，并实现与使用 GPT-4 等最先进的大型语言模型的基于提示的方法相媲美的性能水平。

Dec, 2023

FLAME: 大型语言模型的事实感知对齐

通过对 pre-trained large language models 进行 factual-aware SFT 和 factual-aware RL 的直接优化，使其在保持指令遵循能力的同时，输出更多真实的回应。

May, 2024

扯不清的边界：检索增强的聊天机器人的双刃剑

揭示了大型语言模型存在的幻觉问题，通过整合外部知识与提示信息，检验了检索增强生成（RAG）的能力，实验证明 RAG 在某些情况下能提高准确性，但仍然可能受到与模型预训练理解相抵触的提示的误导，研究结果强调了幻觉的复杂性以及确保大型语言模型在实际应用中可靠性的更强大解决方案的必要性，并提供了 RAG 部署的实用建议和对更值得信赖的大型语言模型开发的影响。

Mar, 2024

利用 RAG 提高 LLM 事实准确性以应对幻觉：私有知识库中领域特定查询的案例研究

我们提出了一种朝着利用检索增强生成（RAG）改进大规模语言模型（LLMs）对私人知识库相关的领域特定和时间敏感查询的事实准确性的端到端系统设计。我们的系统将 RAG 流水线与上游数据集处理和下游性能评估集成在一起。通过使用源自 CMU 广泛资源并以教师模型进行注释的策划数据集对模型进行微调，解决了 LLM 产生的幻觉挑战。我们的实验表明该系统在生成更准确的领域特定和时间敏感查询答案方面的有效性。结果还揭示了使用规模较小和偏斜的数据集进行微调 LLM 的限制。这项研究突出了 RAG 系统在增强 LLMs 表现方面的潜力在知识密集型任务中。我们的代码和模型可在 Github 上找到。

Mar, 2024

揭开塞壬之歌：迈向可靠的事实冲突幻觉检测

通过 FactCHD 基准测试，评估 Large Language Models 中事实性的判断，在检测虚假信息方面取得了有效成果，且当前方法在准确检测事实错误方面存在不足。

Oct, 2023

语言模型产生幻觉但在事实验证中可能表现出色

自然语言处理和大型语言模型在近期取得了显著进展，然而，大型语言模型常常会出现 “幻觉”，导致非事实性的输出。我们的人工评估结果证实了这一严重的幻觉问题，显示即使是 GPT-3.5 的事实性输出不到 25%。这凸显了事实验证器的重要性，以便衡量和激励进展。我们的系统调查确认了大型语言模型可以被重新用作有效的事实验证器，与人类判断具有强相关性，至少在维基百科领域。令人惊讶的是，在我们的研究中，最不事实生成器 FLAN-T5-11B 表现最佳作为事实验证器，甚至超过了像 GPT3.5 和 ChatGPT 这样更有能力的大型语言模型。进一步深入分析了这些大型语言模型对高质量证据的依赖以及它们在鲁棒性和泛化能力方面的不足。我们的研究为开发可信赖的生成模型提供了见解。

Oct, 2023

细粒度幻觉检测与编辑语言模型

大语言模型倾向于生成多样的事实不准确的陈述，本文提出了一个新的任务 - 自动细粒度幻觉检测，并提出了一个涵盖六种层次定义的幻觉类型的综合分类法。通过引入一个新的基准测试以评估，我们的分析结果显示 ChatGPT 和 Llama 2-Chat 的输出中有 60% 和 75% 的幻觉，而其中大多数幻觉属于未被充分研究的类别。为了解决这个问题的初步步骤，我们训练了 FAVA，一个通过精心设计的合成数据生成来检测和纠正细粒度幻觉的检索增强的语言模型。在我们的基准测试中，我们的自动和人工评估显示 FAVA 在细粒度幻觉检测方面明显优于 ChatGPT，尽管还存在大量改进的空间。FAVA 提供的修改还提高了语言模型生成文本的准确性，导致了 5-10% 的 FActScore 改进。

Jan, 2024

自我对齐以提高事实准确性：通过自我评估减少 LLMs 中的幻觉

探索使用自我评估和自我知识调整的自对齐方法，以增强大语言模型的事实准确性。

Feb, 2024

关于事实问答中幻觉的早期检测

我们通过探究模型生成的输入、输出和内部状态中的指标来检测大型语言模型生成中的幻觉，结果表明这些指标在幻觉生成和非幻觉生成之间存在差异，我们进一步通过训练二分类器使用这些指标作为输入特征来将模型生成划分为幻觉和非幻觉，此二分类器的 AUROC 值达到 0.80，并且我们展示了先前的幻觉中的令牌可以预测随后的幻觉。

Dec, 2023