谈话模型产生幻觉的起因:是数据集还是模型?
该研究通过人工反馈分析,提出了一种针对知识图谱(Knowledge Graph)聊天机器人中存在的事实幻觉问题的实体级幻觉检测系统,并创建了FADE合成数据集,用于与已建立的基准进行比较。
Jan, 2023
通过细致分类和度、方向及类别上的倾向进行细粒度的幻视建模和缓解,我们提供了两个幻视方向(FM和SL)的全面理解,并将其进一步细分为内在和外在,分为温和、中度和令人担忧的三个严重程度,同时我们还对幻视进行了六种类型的细致分类。此外,我们还提供了包含75,000个样本和人工注释的HallucInation eLiciTation(HILT)数据集。最后,我们提出了Hallucination Vulnerability Index(HVI),该指数可以量化和评估语言模型在产生幻视方面的脆弱性,并作为人工智能相关政策制定的标准工具。
Oct, 2023
在这份调查中,我们旨在对大型语言模型(LLM)幻像领域的最新进展进行全面而深入的概述。我们从LLM幻像创新分类入手,然后深入探讨了导致幻像的因素。接下来,我们全面介绍了幻像检测方法和基准。此外,我们还相应介绍了用于减轻幻像的代表性方法。最后,我们分析了突出当前限制的挑战,并制定了未来LLM幻像研究的开放问题,旨在描绘发展方向。
Nov, 2023
通过基于认知偏见和其他心理现象的心理分类学,我们质疑将“幻觉”一词应用于大型语言模型,并利用人类内部解决类似挑战的见解来开发缓解LLMs幻觉的策略,为提高LLM的可靠性提供细致精确的理解和可操作的途径。
Feb, 2024
我们的研究旨在探索语言模型(LMs)产生非事实幻觉的机制原因,并通过因果中介分析和嵌入空间投影,确定了两种普遍的机制原因:1)较低层MLPs中主语属性知识不足,2)较高层attention heads和MLPs中无法正确选择客体属性。通过对LM预训练检查点的审查,我们揭示了这两种幻觉机制原因的不同学习动态,并强调从因果分析中得出的属性特征可以有效构建幻觉检测器。我们的工作为LM事实错误提供了机制性理解。
Mar, 2024
该论文介绍了幻觉排行榜,一个旨在定量衡量和比较每个模型产生幻觉倾向的开放性倡议,通过一系列综合评估模型的基准测试,如准确性和忠实度等方面,涵盖了问答、摘要和阅读理解等不同任务,为研究人员和实践者指导选择最可靠的模型。
Apr, 2024
通过对103篇NLP研究的批判性审查,我们调查了大型语言模型中幻觉的特点;通过对社会学和技术文献的全面审阅,我们发现了对“幻觉”一词缺乏共识;此外,我们对171名NLP和AI领域的从业者进行了一项调查,以了解对幻觉的不同观点;我们的分析强调了在NLP中明确定义和框架定位幻觉的必要性,突出了可能的挑战,而我们的调查结果提供了对幻觉对社会影响和后果的主题性理解。
Apr, 2024
提出HalluDial,这是首个用于自动对话级幻觉评估的综合大规模基准测试。HalluDial包含了以上文提到的内容,并包括了分为自发和感应性的幻觉情景,并涵盖了实际性幻觉和忠实性幻觉。
Jun, 2024
本研究针对语言模型的幻觉问题,特别是训练集中的正确答案如何影响幻觉现象。通过构建知识图谱数据集并训练不同规模的语言模型,发现更大的模型和更长的训练时间会降低幻觉发生率,但要实现较低的幻觉率需要显著更大的模型和计算成本。此外,研究还揭示了语言模型的规模与幻觉可检测性之间的逆向关系。
Aug, 2024
本研究针对大语言模型(LLMs)在文本生成过程中面临的幻觉问题,即生成与输入或外部知识不符的信息。通过构建多实例模型之间辩论的实验框架,本研究揭示了模型间互动对幻觉的影响,发现这种交互可以增强模型的推理能力,从而提高其在TruthfulQA基准测试中的表现。
Oct, 2024