探寻内在原因:为何LLMs产生幻觉的因果视角
本文调查了近期关于大型语言模型(LLMs)幻觉的检测、解释和缓解的努力,并着重讨论了LLMs所带来的独特挑战,提出了LLM幻觉现象的分类和评估基准,并分析了现有的缓解LLM幻觉方法,探讨了未来研究的潜在方向。
Sep, 2023
在这份调查中,我们旨在对大型语言模型(LLM)幻像领域的最新进展进行全面而深入的概述。我们从LLM幻像创新分类入手,然后深入探讨了导致幻像的因素。接下来,我们全面介绍了幻像检测方法和基准。此外,我们还相应介绍了用于减轻幻像的代表性方法。最后,我们分析了突出当前限制的挑战,并制定了未来LLM幻像研究的开放问题,旨在描绘发展方向。
Nov, 2023
这篇论文综述了32种技术,旨在减轻大型语言模型中的幻觉问题,其中包括检索增强生成、知识检索、CoNLI和CoVe等方法,并提出了基于数据集利用、常见任务、反馈机制和检索器类型等参数的分类方法,以区分专门设计用于解决大型语言模型幻觉问题的各种方法。此外,还分析了这些技术中存在的挑战和局限性,为未来研究提供了坚实的基础。
Jan, 2024
通过基于认知偏见和其他心理现象的心理分类学,我们质疑将“幻觉”一词应用于大型语言模型,并利用人类内部解决类似挑战的见解来开发缓解LLMs幻觉的策略,为提高LLM的可靠性提供细致精确的理解和可操作的途径。
Feb, 2024
通过主题分析,我们对生成的代码进行了总结和分类,建立了包括五个主要类别的幻觉的综合分类法。基于结果,我们提出了一个评估代码 LLM 性能的基准,名为 HalluCode,并通过 HalluCode 和 HumanEval 进行了幻觉识别和减轻实验,结果表明现有的 LLM 在识别幻觉方面面临巨大挑战,尤其是在识别幻觉类型方面,几乎无法减轻幻觉。我们相信我们的研究结果将为幻觉评估、检测和减轻的未来研究提供指导,为建立更有效可靠的代码 LLMs 铺平道路。
Apr, 2024
通过广泛系统实验,我们展示了传统方法无法解释LLMs在实践中为什么会产生幻觉,并通过大量内存专家的混合来增强LLMs,可以轻松地记忆大数据集,为去除幻觉设计了Lamini-1模型。
Jun, 2024
研究大型语言模型的幻觉问题如何通过自我感知估计幻觉风险,通过对神经元、激活层和令牌的研究,提出了一种探测器来实现语言模型的自我评估,试验结果表明其幻觉估计准确率达到84.32%。
Jul, 2024
本文探讨了四个大型语言模型(LLMs)(Llama 3、Gemma、GPT-3.5 Turbo和GPT-4)在幻觉生成和检测任务中的能力,并采用集成多数投票的方法将所有四个模型应用于检测任务,结果对于了解这些模型在处理幻觉生成和检测任务中的优势和不足具有有价值的见解。
Jul, 2024
本研究解决了大型语言模型(LLMs)中幻觉的不可避免性问题,强调幻觉不是偶然错误,而是这些系统固有的特性。通过引入“结构幻觉”概念,本论文表明幻觉源于LLM的基本数学和逻辑结构,指出无法通过架构改进或数据集增强完全消除幻觉,从而对现有观点提出挑战。
Sep, 2024
本研究针对大型语言模型(LLMs)产生幻觉的问题,进行了不同提示策略和框架的全面实证评估,旨在减少幻觉发生率。研究发现,最佳的提示技术取决于具体问题,简单的提示方法在降低幻觉率方面往往优于复杂方法。此外,外部工具的使用可能导致LLM代理出现显著更高的幻觉率。
Oct, 2024