SelfCheckGPT: 面向生成式大型语言模型的零资源黑盒幻觉检测

Mar, 2023

SelfCheckGPT: 面向生成式大型语言模型的零资源黑盒幻觉检测

SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models

Potsawee Manakul, Adian Liusie, Mark J. F. Gales

TL;DR本文提出了一种称为 SelfCheckGPT 的新方法，用于检测生成式大型语言模型中的错误事实，并在不需要外部数据库的情况下使用。该方法基于样本抽样，利用相似的句子包含一致事实的简单概念来判断事实的准确性。我们使用 GPT-3 生成 WikiBio 数据集中的个人传记来验证该方法，证明 SelfCheckGPT 可以检测非事实和事实句子，并按事实性对生成段落进行排序。

Abstract

generative large language models (LLMs) such as GPT-3 are capable of generating highly fluent responses to a wide variety of user prompts. However, LLMs are known to hallucinate facts and make non-factual statements which can undermine trust in their output. Existing →

generative large language models fact-checking selfcheckgpt hallucinated facts zero-resource fashion

发现论文，激发创造

语言模型产生幻觉但在事实验证中可能表现出色

自然语言处理和大型语言模型在近期取得了显著进展，然而，大型语言模型常常会出现 “幻觉”，导致非事实性的输出。我们的人工评估结果证实了这一严重的幻觉问题，显示即使是 GPT-3.5 的事实性输出不到 25%。这凸显了事实验证器的重要性，以便衡量和激励进展。我们的系统调查确认了大型语言模型可以被重新用作有效的事实验证器，与人类判断具有强相关性，至少在维基百科领域。令人惊讶的是，在我们的研究中，最不事实生成器 FLAN-T5-11B 表现最佳作为事实验证器，甚至超过了像 GPT3.5 和 ChatGPT 这样更有能力的大型语言模型。进一步深入分析了这些大型语言模型对高质量证据的依赖以及它们在鲁棒性和泛化能力方面的不足。我们的研究为开发可信赖的生成模型提供了见解。

Oct, 2023

段落级幻觉检测的新基准与反向验证方法

本研究提出了一种基于反向验证的自检方法，以零资源方式自动检测事实错误，并构建了一个基于 ChatGPT 生成的、由人工注释的幻觉检测基准，在段落级别进行研究和评估不同方法，揭示了零资源方法的共同局限。

Oct, 2023

揭开塞壬之歌：迈向可靠的事实冲突幻觉检测

通过 FactCHD 基准测试，评估 Large Language Models 中事实性的判断，在检测虚假信息方面取得了有效成果，且当前方法在准确检测事实错误方面存在不足。

Oct, 2023

AutoHall: 大型语言模型的自动幻觉数据集生成

该论文提出了 AutoHall 方法，通过自相矛盾的方式自动构建模型特定的幻觉数据集，然后基于这些数据集实现了无资源和黑盒幻觉检测方法，对开源和闭源大型语言模型进行了实验证明，在幻觉检测性能上优于现有基准模型，并且发现了不同模型之间的幻觉比例和类型的差异。

Sep, 2023

大型语言模型的零资源幻觉预防

通过引入一种名为【自我检测】的新技术，本研究提出了一种预防性策略来减少大型语言模型中的 “幻觉” 现象，实验证明该技术在幻觉检测方面表现优异，对于提高语言助手的可靠性、适用性和解释性具有重要意义。

Sep, 2023

自检器：用于基于大语言模型事实检测的即装即用模块

本文提出一种基于自监督的零次学习框架 ——Self-Checker，旨在解决基于特定数据集进行事实检查的计算负担问题。实验结果表明，该框架在低资源环境下能够快速且高效地构建事实检查系统，其能力仍有待进一步提高。

May, 2023

临床摘要中事实对齐的合成模仿编辑反馈

使用 ChatGPT 生成高质量反馈数据，从而改善临床笔记概括任务中的事实一致性，并展示了 GPT 编辑在人类对齐中的潜在用途，特别是从事实角度。

Oct, 2023

CrossCheckGPT: 多模态基础模型的通用幻觉排序

提出了一种用于多模态基础模型的无参考幻觉排名方法 CrossCheckGPT，通过跨系统一致性来评估幻觉的稳健性，并通过测量信息一致性的距离度量来确定模型输出之间的一致性。该方法在文本、图像和音频 - 视觉领域展示了对幻觉排名的适用性，并提出了首个音频 - 视觉幻觉基准 “AVHalluBench”，并在 MHaluBench 和 AVHalluBench 上与人类判断的相关性分别达到 98% 和 89%。

May, 2024

零样本多任务幻觉检测

在这项研究中，我们正式定义了虚构，并提出了一种在零镜头环境中定量检测虚构的框架，利用我们的定义和模型输出包含任务和样本特定输入的假设。我们的解决方案在模型感知环境中实现了 0.78 的准确度，在模型无关环境中实现了 0.61 的准确度。值得注意的是，我们的解决方案保持了计算效率，比其他现有方法需要更少的计算资源，符合轻量化和压缩模型的趋势。

Mar, 2024

基于数据的方法生成忠实和高质量的患者总结（利用大型语言模型）

使用大型语言模型生成基于医生笔记的患者摘要，研究训练数据对生成摘要的准确性和质量的影响，使用对幻觉的严格标注协议，评估基于 Llama 2 和 GPT-4 的生成摘要的幻觉现象及相关信息。

Feb, 2024