认知幻象:大型语言模型中幻觉的综述
本文调查了近期关于大型语言模型(LLMs)幻觉的检测、解释和缓解的努力,并着重讨论了LLMs所带来的独特挑战,提出了LLM幻觉现象的分类和评估基准,并分析了现有的缓解LLM幻觉方法,探讨了未来研究的潜在方向。
Sep, 2023
通过细致分类和度、方向及类别上的倾向进行细粒度的幻视建模和缓解,我们提供了两个幻视方向(FM和SL)的全面理解,并将其进一步细分为内在和外在,分为温和、中度和令人担忧的三个严重程度,同时我们还对幻视进行了六种类型的细致分类。此外,我们还提供了包含75,000个样本和人工注释的HallucInation eLiciTation(HILT)数据集。最后,我们提出了Hallucination Vulnerability Index(HVI),该指数可以量化和评估语言模型在产生幻视方面的脆弱性,并作为人工智能相关政策制定的标准工具。
Oct, 2023
在这份调查中,我们旨在对大型语言模型(LLM)幻像领域的最新进展进行全面而深入的概述。我们从LLM幻像创新分类入手,然后深入探讨了导致幻像的因素。接下来,我们全面介绍了幻像检测方法和基准。此外,我们还相应介绍了用于减轻幻像的代表性方法。最后,我们分析了突出当前限制的挑战,并制定了未来LLM幻像研究的开放问题,旨在描绘发展方向。
Nov, 2023
这篇论文综述了32种技术,旨在减轻大型语言模型中的幻觉问题,其中包括检索增强生成、知识检索、CoNLI和CoVe等方法,并提出了基于数据集利用、常见任务、反馈机制和检索器类型等参数的分类方法,以区分专门设计用于解决大型语言模型幻觉问题的各种方法。此外,还分析了这些技术中存在的挑战和局限性,为未来研究提供了坚实的基础。
Jan, 2024
通过综合调查,我们分析了大型视觉语言模型(LVLMs)中的幻觉问题,以建立一个概览并为未来的缓解工作提供帮助。调查包括对LVLMs中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估LVLMs幻觉的基准和方法论的概述。此外,我们深入研究了这些幻觉的根本原因,包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾,并讨论了关于LVLMs中幻觉的未解问题和未来研究方向。
Feb, 2024
通过基于认知偏见和其他心理现象的心理分类学,我们质疑将“幻觉”一词应用于大型语言模型,并利用人类内部解决类似挑战的见解来开发缓解LLMs幻觉的策略,为提高LLM的可靠性提供细致精确的理解和可操作的途径。
Feb, 2024
大型语言模型(LLM)中的幻觉被视为限制,但是它们是否也可能是创造力的源泉?本研究探讨了这个可能性,认为幻觉可能通过促进创造力来促进LLM应用。通过回顾幻觉的分类及其对LLM在关键应用中可靠性的负面影响的调查,本研究开始讨论幻觉在LLM中的潜在创造性益处,通过历史案例和最新相关理论,深入研究了幻觉在LLM中实现创造力的价值和评估标准。根据发散和收敛思维阶段的框架,本研究系统地回顾了利用LLM中的幻觉进行创造力转化和利用的文献。最后,本研究讨论了未来的研究方向,强调进一步探索和完善LLM中幻觉在创造过程中的应用的必要性。
Feb, 2024
通过主题分析,我们对生成的代码进行了总结和分类,建立了包括五个主要类别的幻觉的综合分类法。基于结果,我们提出了一个评估代码 LLM 性能的基准,名为 HalluCode,并通过 HalluCode 和 HumanEval 进行了幻觉识别和减轻实验,结果表明现有的 LLM 在识别幻觉方面面临巨大挑战,尤其是在识别幻觉类型方面,几乎无法减轻幻觉。我们相信我们的研究结果将为幻觉评估、检测和减轻的未来研究提供指导,为建立更有效可靠的代码 LLMs 铺平道路。
Apr, 2024
通过对103篇NLP研究的批判性审查,我们调查了大型语言模型中幻觉的特点;通过对社会学和技术文献的全面审阅,我们发现了对“幻觉”一词缺乏共识;此外,我们对171名NLP和AI领域的从业者进行了一项调查,以了解对幻觉的不同观点;我们的分析强调了在NLP中明确定义和框架定位幻觉的必要性,突出了可能的挑战,而我们的调查结果提供了对幻觉对社会影响和后果的主题性理解。
Apr, 2024
本研究旨在解决大型视觉语言模型(LVLM)中幻觉现象所带来的实际问题。通过综述LVLM的背景、结构以及幻觉产生的主要原因,评估当前的幻觉纠正与减轻工作,并提出未来研究方向,以增强LVLM的可靠性与实用性。研究揭示了幻觉现象对LVLM效能的限制,并强调了提升用户体验的潜在影响。
Oct, 2024