SAC$^3$: 基于语义感知交叉检验的黑盒语言模型可靠幻觉检测

EMNLPNov, 2023

SAC$^3$: 基于语义感知交叉检验的黑盒语言模型可靠幻觉检测

SAC$^3$: Reliable Hallucination Detection in Black-Box Language Models via Semantic-aware Cross-check Consistency

Jiaxin Zhang, Zhuohang Li, Kamalika Das, Bradley A. Malin, Sricharan Kumar

TL;DR通过引入语义感知的交叉检查一致性（SAC^3）方法，我们重新审视了现有的基于语言模型自一致性的幻觉检测方法，并发现了两种无法通过自一致性检查有效识别的幻觉类型，即问题级和模型级，并通过利用包括语义等效问题扰动和交叉模型响应一致性检查在内的先进方法来检测这两种幻觉，通过大量系统的经验分析，我们证明了 SAC^3 在检测多个问答和开放领域生成基准中的非事实和事实陈述方面优于现有技术。

Abstract

hallucination detection is a critical step toward understanding the trustworthiness of modern language models (LMs). To achieve this goal, we re-examine existing detection approaches based on the self-consistency

hallucination detection language models self-consistency checking question-level hallucinations model-level hallucinations

发现论文，激发创造

SLPL SHROOM 在 SemEval-2024 任务 06 中：模型检测幻觉能力的全面研究

本研究探索了通过比较生成文本与事实参考之间的语义相似性以及互相评判的语言模型集成方法来检测虚构的方法，并指出了虚构检测的挑战以及进一步研究的必要性。

Apr, 2024

AutoHall: 大型语言模型的自动幻觉数据集生成

该论文提出了 AutoHall 方法，通过自相矛盾的方式自动构建模型特定的幻觉数据集，然后基于这些数据集实现了无资源和黑盒幻觉检测方法，对开源和闭源大型语言模型进行了实验证明，在幻觉检测性能上优于现有基准模型，并且发现了不同模型之间的幻觉比例和类型的差异。

Sep, 2023

语义熵探针：在 LLMs 中稳健且经济的幻觉检测

我们提出了语义熵探针 (SEPs)，这是一种在大型语言模型 (LLMs) 中用于量化不确定性的廉价可靠方法。

Jun, 2024

寻求真相：一种审问方法用于幻觉检测

通过多个数据集和大型语言模型，包括 Llama-2，对该模型的幻觉水平进行广泛评估，并展示了我们的方法在自动检测幻觉方面的有效性，达到了 87% 的平衡准确率，而无需依赖外部知识。

Mar, 2024

关于事实问答中幻觉的早期检测

我们通过探究模型生成的输入、输出和内部状态中的指标来检测大型语言模型生成中的幻觉，结果表明这些指标在幻觉生成和非幻觉生成之间存在差异，我们进一步通过训练二分类器使用这些指标作为输入特征来将模型生成划分为幻觉和非幻觉，此二分类器的 AUROC 值达到 0.80，并且我们展示了先前的幻觉中的令牌可以预测随后的幻觉。

Dec, 2023

零样本多任务幻觉检测

在这项研究中，我们正式定义了虚构，并提出了一种在零镜头环境中定量检测虚构的框架，利用我们的定义和模型输出包含任务和样本特定输入的假设。我们的解决方案在模型感知环境中实现了 0.78 的准确度，在模型无关环境中实现了 0.61 的准确度。值得注意的是，我们的解决方案保持了计算效率，比其他现有方法需要更少的计算资源，符合轻量化和压缩模型的趋势。

Mar, 2024

通过自我反思来缓解大型语言模型中的幻想

通过与大规模语言模型和数据集合作，本文分析了医学生成型问答系统中幻觉现象的问题，并提出了一种交互自我反思的方法来解决该挑战，最终实验证明该方法在幻觉减少方面优于基线模型。

Oct, 2023

语言模型知道它们在引用幻觉吗？

语言模型生成的参考文献不可靠，但采用一致性检查，可以发现和区分真实和虚假参考文献，并且这些虚假参考文献可能是由于生成技术而非底层表征导致的。

May, 2023

利用语义重建缓解视觉语言模型中的幻像

通过准确定位和惩罚产生错觉的标记，ESREAL 提出了一种新颖的无监督学习框架，以抑制视觉 - 语言模型在生成长字幕时的幻觉，通过分析图像本身的信号实现减少错觉的目标。

Mar, 2024

KnowHalu：基于多形式知识的事实检查的幻觉检测

KnowHalu 是一种新颖的方法，用于检测大规模语言模型（LLMs）生成的文字中的幻觉，利用逐步推理、多阶段问题形式、多形式知识进行事实检查以及基于融合的检测机制。

Apr, 2024