大型语言模型也会幻觉图:一种结构视角
在这份调查中,我们旨在对大型语言模型(LLM)幻像领域的最新进展进行全面而深入的概述。我们从LLM幻像创新分类入手,然后深入探讨了导致幻像的因素。接下来,我们全面介绍了幻像检测方法和基准。此外,我们还相应介绍了用于减轻幻像的代表性方法。最后,我们分析了突出当前限制的挑战,并制定了未来LLM幻像研究的开放问题,旨在描绘发展方向。
Nov, 2023
综述了基于知识图谱的知识增强技术在LLMs中减轻幻觉方面的有效性,将这些方法系统地分类为三个总体组,提供了方法比较和性能的实证评估,最后探讨了这些技术所面临的挑战,并概述了这个新兴领域的未来研究方向。
Nov, 2023
在大型语言模型时代,幻觉(即生成事实不准确的内容)对于在现实应用中可信可靠地部署语言模型构成了巨大的挑战。为了解决语言模型幻觉问题,本研究对幻觉检测、幻觉来源和幻觉缓解这三个重要问题进行了系统的实证研究。研究通过构建一个新的幻觉基准HalualEval 2.0,设计了一种简单而有效的语言模型幻觉检测方法,并深入分析了导致语言模型幻觉的潜在因素。最后,研究实施并检验了一系列常用的技术来缓解语言模型中的幻觉。本研究的工作为理解幻觉的起源以及缓解语言模型中的幻觉问题提供了重要发现。
Jan, 2024
通过基于认知偏见和其他心理现象的心理分类学,我们质疑将“幻觉”一词应用于大型语言模型,并利用人类内部解决类似挑战的见解来开发缓解LLMs幻觉的策略,为提高LLM的可靠性提供细致精确的理解和可操作的途径。
Feb, 2024
大型语言模型 (LLMs) 可能会产生虚假答案,本研究旨在探讨 LLMs 是否知晓此虚假现象,并研究其反应和程度。通过实验框架检查 LLM 在回答问题和产生虚假回答时的隐藏状态差异,并得出实证发现发现,LLMs 在处理真实回答和虚假回答时有所不同,然后应用各种模型解释技术进一步理解并解释这些发现,同时利用 LLM 隐藏表示空间的引导推导出减少幻觉的潜力。本研究揭示了 LLMs 反应幻觉的答案制备过程,并提出减少其发生频率的方法。
Feb, 2024
通过权重LLMs的事实性评估(FEWL),我们提出了第一个专门针对没有黄金标准答案的情况的幻觉度量标准,该度量标准借助现成的LLMs回答充当黄金标准答案的代理,以更准确地测量幻觉,从而减少存在的威胁并提高LLMs的可靠性和信誉。
Feb, 2024
我们提出了PoLLMgraph,一种用于大型语言模型的多种同类白盒检测和预测方法,通过分析生成过程中LLM的内部状态转换动态来有效地检测虚构现象,实验证明其比现有方法在TruthfulQA等常见基准数据集上具有20%以上的AUC-ROC改进效果,为LLM的模型化白盒分析开辟了新的途径。
Apr, 2024
利用知识图谱结构进行大型语言模型(LLM)的幻觉评估,发现特定的三元组更容易产生幻觉;同时与最先进的自然语言推理模型结合使用能够提高各种幻觉基准上的平衡准确性;最后通过利用知识图谱结构进行幻觉纠正,证明大多数幻觉确实可以被矫正。
Jul, 2024
本研究针对语言模型的幻觉问题,特别是训练集中的正确答案如何影响幻觉现象。通过构建知识图谱数据集并训练不同规模的语言模型,发现更大的模型和更长的训练时间会降低幻觉发生率,但要实现较低的幻觉率需要显著更大的模型和计算成本。此外,研究还揭示了语言模型的规模与幻觉可检测性之间的逆向关系。
Aug, 2024
本研究解决了大型语言模型(LLMs)中幻觉的不可避免性问题,强调幻觉不是偶然错误,而是这些系统固有的特性。通过引入“结构幻觉”概念,本论文表明幻觉源于LLM的基本数学和逻辑结构,指出无法通过架构改进或数据集增强完全消除幻觉,从而对现有观点提出挑战。
Sep, 2024