幻觉检测与幻觉减缓：一项研究

Jan, 2024

Hallucination Detection and Hallucination Mitigation: An Investigation

Junliang Luo, Tianyu Li, Di Wu, Michael Jenkin, Steve Liu...

TL;DR大型语言模型（如ChatGPT、Bard和Llama）在不同领域的应用中取得了显著的成功。然而，虚假生成是限制其广泛应用的关键问题。本报告意在综述虚假生成检测和虚假生成减轻的现有文献，旨在为对大型语言模型和将其应用于实际任务感兴趣的工程师和研究人员提供参考。

Abstract

large language models (LLMs), including ChatGPT, Bard, and Llama, have achieved remarkable successes over the last two years in a range of different applications. In spite of these successes, there exist concerns that limit the wide application of LLMs. A key problem is the problem of

发现论文，激发创造

大规模视觉语言模型中的幻觉评估和分析

基于大型语言模型的幻觉评估框架 (HaELM) 提出了对当前大视觉-语言模型 (LVLMs) 进行幻觉评估的方法，并分析了导致幻觉的因素，并提供了缓解幻觉问题的建议。

Aug, 2023

AI海洋中的塞壬之歌：大型语言模型中的幻觉调查

本文调查了近期关于大型语言模型（LLMs）幻觉的检测、解释和缓解的努力，并着重讨论了LLMs所带来的独特挑战，提出了LLM幻觉现象的分类和评估基准，并分析了现有的缓解LLM幻觉方法，探讨了未来研究的潜在方向。

Sep, 2023

大型语言模型中的幻觉调查：原则、分类、挑战与开放问题

在这份调查中，我们旨在对大型语言模型（LLM）幻像领域的最新进展进行全面而深入的概述。我们从LLM幻像创新分类入手，然后深入探讨了导致幻像的因素。接下来，我们全面介绍了幻像检测方法和基准。此外，我们还相应介绍了用于减轻幻像的代表性方法。最后，我们分析了突出当前限制的挑战，并制定了未来LLM幻像研究的开放问题，旨在描绘发展方向。

Nov, 2023

黑暗之后的黎明：大型语言模型中的事实错觉的实证研究

在大型语言模型时代，幻觉（即生成事实不准确的内容）对于在现实应用中可信可靠地部署语言模型构成了巨大的挑战。为了解决语言模型幻觉问题，本研究对幻觉检测、幻觉来源和幻觉缓解这三个重要问题进行了系统的实证研究。研究通过构建一个新的幻觉基准HalualEval 2.0，设计了一种简单而有效的语言模型幻觉检测方法，并深入分析了导致语言模型幻觉的潜在因素。最后，研究实施并检验了一系列常用的技术来缓解语言模型中的幻觉。本研究的工作为理解幻觉的起源以及缓解语言模型中的幻觉问题提供了重要发现。

Jan, 2024

在LLMs中重新定义“幻觉”：朝着心理学指导的框架缓解错误信息

通过基于认知偏见和其他心理现象的心理分类学，我们质疑将“幻觉”一词应用于大型语言模型，并利用人类内部解决类似挑战的见解来开发缓解LLMs幻觉的策略，为提高LLM的可靠性提供细致精确的理解和可操作的途径。

Feb, 2024

寻求真相：一种审问方法用于幻觉检测

通过多个数据集和大型语言模型，包括Llama-2，对该模型的幻觉水平进行广泛评估，并展示了我们的方法在自动检测幻觉方面的有效性，达到了87%的平衡准确率，而无需依赖外部知识。

Mar, 2024

基于大型语言模型内部状态的非监督实时幻觉检测

LLMs出现的幻觉指的是LLMs产生的回应在逻辑上是连贯的，但事实上是不准确的。本文引入了一种名为MIND的无监督训练框架，利用LLMs的内部状态实时检测幻觉，无需手动注释，并提出了用于评估多个LLMs幻觉检测的新基准HELM。我们的实验证明，MIND在幻觉检测方面优于现有的最先进方法。

Mar, 2024

通过基于扰动的合成数据生成，提高系统响应中的幻觉检测能力

本研究介绍了一种通过重写系统响应来自动生成真实和虚构输出的方法，实验证明我们的方法在准确性和延迟方面均优于最先进的零样本检测器和现有的合成生成方法，展示了我们的方法的有效性。

Jul, 2024

硬币的两面：利用LLMs作为LLMs的评估器进行幻觉生成和检测

本文探讨了四个大型语言模型（LLMs）（Llama 3、Gemma、GPT-3.5 Turbo和GPT-4）在幻觉生成和检测任务中的能力，并采用集成多数投票的方法将所有四个模型应用于检测任务，结果对于了解这些模型在处理幻觉生成和检测任务中的优势和不足具有有价值的见解。

Jul, 2024

大型视觉语言模型中的幻觉研究

本研究旨在解决大型视觉语言模型（LVLM）中幻觉现象所带来的实际问题。通过综述LVLM的背景、结构以及幻觉产生的主要原因，评估当前的幻觉纠正与减轻工作，并提出未来研究方向，以增强LVLM的可靠性与实用性。研究揭示了幻觉现象对LVLM效能的限制，并强调了提升用户体验的潜在影响。

Oct, 2024