认知幻象：大型语言模型中幻觉的综述

Sep, 2023

认知幻象：大型语言模型中幻觉的综述

Cognitive Mirage: A Review of Hallucinations in Large Language Models

Hongbin Ye, Tong Liu, Aijia Zhang, Wei Hua, Weiqiang Jia

TL;DR研究总结了最近对大型语言模型中的幻觉现象的有趣见解，提出了一个包含各种文本生成任务中幻觉的新颖分类法，以及理论洞察、检测方法和改进方法，并提出了若干未来的研究方向。

Abstract

As large language models continue to develop in the field of AI, text generation systems are susceptible to a worrisome phenomenon known as hallucination. In this study, we summarize recent compelling insights into hall

发现论文，激发创造

AI海洋中的塞壬之歌：大型语言模型中的幻觉调查

本文调查了近期关于大型语言模型（LLMs）幻觉的检测、解释和缓解的努力，并着重讨论了LLMs所带来的独特挑战，提出了LLM幻觉现象的分类和评估基准，并分析了现有的缓解LLM幻觉方法，探讨了未来研究的潜在方向。

Sep, 2023

大型语言模型中幻觉的令人不安出现--广泛定义、量化和规范性改进

通过细致分类和度、方向及类别上的倾向进行细粒度的幻视建模和缓解，我们提供了两个幻视方向（FM和SL）的全面理解，并将其进一步细分为内在和外在，分为温和、中度和令人担忧的三个严重程度，同时我们还对幻视进行了六种类型的细致分类。此外，我们还提供了包含75,000个样本和人工注释的HallucInation eLiciTation（HILT）数据集。最后，我们提出了Hallucination Vulnerability Index（HVI），该指数可以量化和评估语言模型在产生幻视方面的脆弱性，并作为人工智能相关政策制定的标准工具。

Oct, 2023

大型语言模型中的幻觉调查：原则、分类、挑战与开放问题

在这份调查中，我们旨在对大型语言模型（LLM）幻像领域的最新进展进行全面而深入的概述。我们从LLM幻像创新分类入手，然后深入探讨了导致幻像的因素。接下来，我们全面介绍了幻像检测方法和基准。此外，我们还相应介绍了用于减轻幻像的代表性方法。最后，我们分析了突出当前限制的挑战，并制定了未来LLM幻像研究的开放问题，旨在描绘发展方向。

Nov, 2023

大型语言模型中幻觉缓解技术的综合调查

这篇论文综述了32种技术，旨在减轻大型语言模型中的幻觉问题，其中包括检索增强生成、知识检索、CoNLI和CoVe等方法，并提出了基于数据集利用、常见任务、反馈机制和检索器类型等参数的分类方法，以区分专门设计用于解决大型语言模型幻觉问题的各种方法。此外，还分析了这些技术中存在的挑战和局限性，为未来研究提供了坚实的基础。

Jan, 2024

大型视觉语言模型中的幻觉调查

通过综合调查，我们分析了大型视觉语言模型（LVLMs）中的幻觉问题，以建立一个概览并为未来的缓解工作提供帮助。调查包括对LVLMs中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估LVLMs幻觉的基准和方法论的概述。此外，我们深入研究了这些幻觉的根本原因，包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾，并讨论了关于LVLMs中幻觉的未解问题和未来研究方向。

Feb, 2024

在LLMs中重新定义“幻觉”：朝着心理学指导的框架缓解错误信息

通过基于认知偏见和其他心理现象的心理分类学，我们质疑将“幻觉”一词应用于大型语言模型，并利用人类内部解决类似挑战的见解来开发缓解LLMs幻觉的策略，为提高LLM的可靠性提供细致精确的理解和可操作的途径。

Feb, 2024

基于创造性视角的大型语言模型幻觉调查

大型语言模型（LLM）中的幻觉被视为限制，但是它们是否也可能是创造力的源泉？本研究探讨了这个可能性，认为幻觉可能通过促进创造力来促进LLM应用。通过回顾幻觉的分类及其对LLM在关键应用中可靠性的负面影响的调查，本研究开始讨论幻觉在LLM中的潜在创造性益处，通过历史案例和最新相关理论，深入研究了幻觉在LLM中实现创造力的价值和评估标准。根据发散和收敛思维阶段的框架，本研究系统地回顾了利用LLM中的幻觉进行创造力转化和利用的文献。最后，本研究讨论了未来的研究方向，强调进一步探索和完善LLM中幻觉在创造过程中的应用的必要性。

Feb, 2024

LLM 动力编码生成中的幻觉探索与评估

通过主题分析，我们对生成的代码进行了总结和分类，建立了包括五个主要类别的幻觉的综合分类法。基于结果，我们提出了一个评估代码 LLM 性能的基准，名为 HalluCode，并通过 HalluCode 和 HumanEval 进行了幻觉识别和减轻实验，结果表明现有的 LLM 在识别幻觉方面面临巨大挑战，尤其是在识别幻觉类型方面，几乎无法减轻幻觉。我们相信我们的研究结果将为幻觉评估、检测和减轻的未来研究提供指导，为建立更有效可靠的代码 LLMs 铺平道路。

Apr, 2024

自信的无意义？：自然语言处理中“幻觉”观点和挑战的关键调查

通过对103篇NLP研究的批判性审查，我们调查了大型语言模型中幻觉的特点；通过对社会学和技术文献的全面审阅，我们发现了对“幻觉”一词缺乏共识；此外，我们对171名NLP和AI领域的从业者进行了一项调查，以了解对幻觉的不同观点；我们的分析强调了在NLP中明确定义和框架定位幻觉的必要性，突出了可能的挑战，而我们的调查结果提供了对幻觉对社会影响和后果的主题性理解。

Apr, 2024

大型视觉语言模型中的幻觉研究

本研究旨在解决大型视觉语言模型（LVLM）中幻觉现象所带来的实际问题。通过综述LVLM的背景、结构以及幻觉产生的主要原因，评估当前的幻觉纠正与减轻工作，并提出未来研究方向，以增强LVLM的可靠性与实用性。研究揭示了幻觉现象对LVLM效能的限制，并强调了提升用户体验的潜在影响。

Oct, 2024