大型多语种翻译模型中的幻觉
大型多语言机器翻译系统在提高翻译准确性方面取得了重要突破,但即使是最好的系统仍然会出现幻觉,严重影响用户的信任。使用大型语言模型和大规模多语言嵌入中的语义相似度来评估幻觉检测方法。对于高语料资源语言来说,Llama3-70B 的性能比之前的最新技术提高了 0.16 个 MCC(马修斯相关系数);然而,对于低资源语言,我们观察到 Claude Sonnet 相对于其他大型语言模型的平均性能提高了 0.03 个 MCC。我们研究的核心发现是,尽管大型语言模型并非明确针对任何机器翻译任务进行训练,但它们可以达到与以前提出的模型相当甚至更好的性能,尽管它们在低资源语言方面的优势较小。
Jul, 2024
研究总结了最近对大型语言模型中的幻觉现象的有趣见解,提出了一个包含各种文本生成任务中幻觉的新颖分类法,以及理论洞察、检测方法和改进方法,并提出了若干未来的研究方向。
Sep, 2023
综述着重从细致的分类及持盾人儿的划分、评估基准和减轻方式中就多模式大型语言模型(MLLMs)中产生幻觉的原因进行分析,旨在加深对 MLLMs 中幻觉的理解,并激发该领域的进一步发展。
Apr, 2024
在这份调查中,我们旨在对大型语言模型(LLM)幻像领域的最新进展进行全面而深入的概述。我们从 LLM 幻像创新分类入手,然后深入探讨了导致幻像的因素。接下来,我们全面介绍了幻像检测方法和基准。此外,我们还相应介绍了用于减轻幻像的代表性方法。最后,我们分析了突出当前限制的挑战,并制定了未来 LLM 幻像研究的开放问题,旨在描绘发展方向。
Nov, 2023
大型语言模型(如 ChatGPT、Bard 和 Llama)在不同领域的应用中取得了显著的成功。然而,虚假生成是限制其广泛应用的关键问题。本报告意在综述虚假生成检测和虚假生成减轻的现有文献,旨在为对大型语言模型和将其应用于实际任务感兴趣的工程师和研究人员提供参考。
Jan, 2024
提出了一种通过评估翻译中源语言贡献百分比的方法,以解决神经机器翻译中出现的幻觉问题,并发现使用跨语言嵌入的句子相似性有助于提高检测精度。
Dec, 2022
通过分析相对标记的贡献来确定神经序列生成模型的幻觉内在模型症状,使用这些症状设计出一个轻量级的幻觉检测器,在手动标注的英中和德英翻译测试上优于基于质量估计或大型预训练模型的分类器。
Jan, 2023
这篇论文通过深入探讨大型语言模型在幻觉方面的行为,定义了一种基于标记的方法以识别不同类型的幻觉,并进一步利用这种标记方法提高对话摘要任务中语言模型的可解释性和忠实度,同时提出了一个新的改进数据集和训练范式。
Dec, 2023
本文阐述了人工智能幻觉的根本原因及其在人工智能中的重要意义,并就幻觉分类进行了研究,包括机器翻译、问答系统、对话系统、摘要系统、基于大语言模型的知识图谱以及视觉问答等多个任务。同时,本研究探讨了缓解幻觉的潜在策略,旨在提高大语言模型的整体可靠性。该研究属于 HeReFaNMi(Health-Related Fake News Mitigation)项目的一部分,该项目得到 NGI Search 的慷慨支持,旨在抑制互联网上健康相关虚假新闻的传播,致力于在不断演进的人工智能技术时代保护信息传播的完整性。
Nov, 2023
律师常见的经验法则错误假设对大型语言模型的查询及其常见的法律幻觉有极高百分比的影响,通过比较与结构化法律元数据的调查结果,并研究法律规定的一系列查询结果,我们开发了一种法律幻觉的分类方法,并提醒了不应迅速自主将流行的大型语言模型整合到法定任务中。
Jan, 2024