探索 LLM 幻觉与提示语言细微差别之间的关系:可读性,形式性和具体性
在这份调查中,我们旨在对大型语言模型(LLM)幻像领域的最新进展进行全面而深入的概述。我们从 LLM 幻像创新分类入手,然后深入探讨了导致幻像的因素。接下来,我们全面介绍了幻像检测方法和基准。此外,我们还相应介绍了用于减轻幻像的代表性方法。最后,我们分析了突出当前限制的挑战,并制定了未来 LLM 幻像研究的开放问题,旨在描绘发展方向。
Nov, 2023
通过细致分类和度、方向及类别上的倾向进行细粒度的幻视建模和缓解,我们提供了两个幻视方向(FM 和 SL)的全面理解,并将其进一步细分为内在和外在,分为温和、中度和令人担忧的三个严重程度,同时我们还对幻视进行了六种类型的细致分类。此外,我们还提供了包含 75,000 个样本和人工注释的 HallucInation eLiciTation(HILT)数据集。最后,我们提出了 Hallucination Vulnerability Index(HVI),该指数可以量化和评估语言模型在产生幻视方面的脆弱性,并作为人工智能相关政策制定的标准工具。
Oct, 2023
大型语言模型(LLM)中的幻觉被视为限制,但是它们是否也可能是创造力的源泉?本研究探讨了这个可能性,认为幻觉可能通过促进创造力来促进 LLM 应用。通过回顾幻觉的分类及其对 LLM 在关键应用中可靠性的负面影响的调查,本研究开始讨论幻觉在 LLM 中的潜在创造性益处,通过历史案例和最新相关理论,深入研究了幻觉在 LLM 中实现创造力的价值和评估标准。根据发散和收敛思维阶段的框架,本研究系统地回顾了利用 LLM 中的幻觉进行创造力转化和利用的文献。最后,本研究讨论了未来的研究方向,强调进一步探索和完善 LLM 中幻觉在创造过程中的应用的必要性。
Feb, 2024
该研究旨在通过系统地变化幻觉程度(真实,轻微幻觉,重大幻觉)并研究其与警告(警示潜在不准确性:存在与缺失)的相互作用,以理解人类对大型语言模型幻觉的感知。研究结果表明,人类按真实内容 > 轻微幻觉 > 重大幻觉的顺序排列内容的真实性,而用户参与行为反映了这种模式。最重要的是,我们观察到警告改善了幻觉的检测,而不会显著影响真实内容的真实性。最后,我们提供了未来工具援助人类检测幻觉的见解。
Apr, 2024
通过多个数据集和大型语言模型,包括 Llama-2,对该模型的幻觉水平进行广泛评估,并展示了我们的方法在自动检测幻觉方面的有效性,达到了 87% 的平衡准确率,而无需依赖外部知识。
Mar, 2024
律师常见的经验法则错误假设对大型语言模型的查询及其常见的法律幻觉有极高百分比的影响,通过比较与结构化法律元数据的调查结果,并研究法律规定的一系列查询结果,我们开发了一种法律幻觉的分类方法,并提醒了不应迅速自主将流行的大型语言模型整合到法定任务中。
Jan, 2024
这篇论文通过深入探讨大型语言模型在幻觉方面的行为,定义了一种基于标记的方法以识别不同类型的幻觉,并进一步利用这种标记方法提高对话摘要任务中语言模型的可解释性和忠实度,同时提出了一个新的改进数据集和训练范式。
Dec, 2023
这篇论文综述了 32 种技术,旨在减轻大型语言模型中的幻觉问题,其中包括检索增强生成、知识检索、CoNLI 和 CoVe 等方法,并提出了基于数据集利用、常见任务、反馈机制和检索器类型等参数的分类方法,以区分专门设计用于解决大型语言模型幻觉问题的各种方法。此外,还分析了这些技术中存在的挑战和局限性,为未来研究提供了坚实的基础。
Jan, 2024
通过基于认知偏见和其他心理现象的心理分类学,我们质疑将 “幻觉” 一词应用于大型语言模型,并利用人类内部解决类似挑战的见解来开发缓解 LLMs 幻觉的策略,为提高 LLM 的可靠性提供细致精确的理解和可操作的途径。
Feb, 2024
通过结合幻觉水平量化和幻觉原因调查的关联分析,我们能够观察到每个风险因素的每个值下的幻觉水平,检查每个风险因素的贡献和统计显著性,同时排除其他因素的混淆效应,进一步揭示大型语言模型中常识记忆、关系推理和指令遵循等潜在缺陷,为预训练和监督微调过程提供指导,以减轻幻觉问题。
Sep, 2023