AI 幻觉:值得澄清的一个误称
这篇论文研究了知识驱动的对话模型中的幻觉问题,通过广泛的人类研究发现标准测试数据集中有超过60%的幻觉响应,导致模型产生幻觉现象。提出了关于训练数据和模型质量的重要问题,并为未来的研究提供了公开的批注。
Apr, 2022
研究总结了最近对大型语言模型中的幻觉现象的有趣见解,提出了一个包含各种文本生成任务中幻觉的新颖分类法,以及理论洞察、检测方法和改进方法,并提出了若干未来的研究方向。
Sep, 2023
通过细致分类和度、方向及类别上的倾向进行细粒度的幻视建模和缓解,我们提供了两个幻视方向(FM和SL)的全面理解,并将其进一步细分为内在和外在,分为温和、中度和令人担忧的三个严重程度,同时我们还对幻视进行了六种类型的细致分类。此外,我们还提供了包含75,000个样本和人工注释的HallucInation eLiciTation(HILT)数据集。最后,我们提出了Hallucination Vulnerability Index(HVI),该指数可以量化和评估语言模型在产生幻视方面的脆弱性,并作为人工智能相关政策制定的标准工具。
Oct, 2023
在这份调查中,我们旨在对大型语言模型(LLM)幻像领域的最新进展进行全面而深入的概述。我们从LLM幻像创新分类入手,然后深入探讨了导致幻像的因素。接下来,我们全面介绍了幻像检测方法和基准。此外,我们还相应介绍了用于减轻幻像的代表性方法。最后,我们分析了突出当前限制的挑战,并制定了未来LLM幻像研究的开放问题,旨在描绘发展方向。
Nov, 2023
本文阐述了人工智能幻觉的根本原因及其在人工智能中的重要意义,并就幻觉分类进行了研究,包括机器翻译、问答系统、对话系统、摘要系统、基于大语言模型的知识图谱以及视觉问答等多个任务。同时,本研究探讨了缓解幻觉的潜在策略,旨在提高大语言模型的整体可靠性。该研究属于HeReFaNMi(Health-Related Fake News Mitigation)项目的一部分,该项目得到NGI Search的慷慨支持,旨在抑制互联网上健康相关虚假新闻的传播,致力于在不断演进的人工智能技术时代保护信息传播的完整性。
Nov, 2023
通过综合调查,我们分析了大型视觉语言模型(LVLMs)中的幻觉问题,以建立一个概览并为未来的缓解工作提供帮助。调查包括对LVLMs中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估LVLMs幻觉的基准和方法论的概述。此外,我们深入研究了这些幻觉的根本原因,包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾,并讨论了关于LVLMs中幻觉的未解问题和未来研究方向。
Feb, 2024
通过基于认知偏见和其他心理现象的心理分类学,我们质疑将“幻觉”一词应用于大型语言模型,并利用人类内部解决类似挑战的见解来开发缓解LLMs幻觉的策略,为提高LLM的可靠性提供细致精确的理解和可操作的途径。
Feb, 2024
人工智能生成内容的进化朝着更高质量的方向发展,与人工智能生成内容的不断交互给数据驱动的人工智能社区带来了新的挑战:尽管AI生成的内容在广泛的AI模型中扮演着关键角色,但它们引入的潜在风险尚未得到充分的审查。本研究突出了由AI合成图像引起的大型视觉语言模型中的严重幻觉现象,结果发现合成图像引起的物体幻觉特点是数量更多且位置分布更均匀,即使这些合成图像与自然图像相比没有呈现非现实或额外相关的视觉特征。此外,我们对Q-former和线性投影仪的研究发现,视觉投影后合成图像可能呈现令牌偏差,从而放大幻觉偏差。
Mar, 2024
通过对103篇NLP研究的批判性审查,我们调查了大型语言模型中幻觉的特点;通过对社会学和技术文献的全面审阅,我们发现了对“幻觉”一词缺乏共识;此外,我们对171名NLP和AI领域的从业者进行了一项调查,以了解对幻觉的不同观点;我们的分析强调了在NLP中明确定义和框架定位幻觉的必要性,突出了可能的挑战,而我们的调查结果提供了对幻觉对社会影响和后果的主题性理解。
Apr, 2024
自然语言生成(NLG)中的幻觉就像房间里的大象,明显却经常被忽视,直到最近取得了显著进展,提高了生成文本的流畅性和语法准确性。对于大型语言模型(LLMs),幻觉可能在各种下游任务和随意对话中发生,需要准确评估以提高可靠性和安全性。然而,目前关于幻觉评估的研究存在很大的差异,人们仍然难以整理和选择最合适的评估方法。此外,随着自然语言处理研究逐渐转向LLMs领域,这一问题带来了新的挑战。本文对幻觉评估方法的发展进行了全面调查,旨在解决三个关键方面的问题:1)事实的多样定义和粒度;2)自动评估器的分类及其适用性;3)未解决的问题和未来的方向。
Apr, 2024