神经机器翻译幻觉成因探究

Jun, 2022

Probing Causes of Hallucinations in Neural Machine Translations

Jianhao Yan, Fandong Meng, Jie Zhou

TL;DR本文提出使用探测方法从模型结构的角度研究机器翻译中幻觉翻译的存在原因，实验发现，幻觉翻译通常伴随缺陷的编码器，特别是嵌入和脆弱的交叉关注，而交叉关注有助于减轻编码器引起的某些错误。

Abstract

hallucination, one kind of pathological translations that bothers Neural Machine Translation, has recently drawn much attention. In simple terms, hallucinated translations are fluent sentences but barely related to source inputs. Arguably, it remains an open problem how →

hallucination neural machine translation probing methods model architecture encoder

发现论文，激发创造

神经机器翻译中幻觉现象的好奇案例

本文研究神经机器翻译中的幻觉，提出了两个关键的幻觉方式（源扰动下和语料级别噪声下），并阐述了数据生成过程中的幻觉放大现象，其中 Backtranslation 是一种常见的数据生成方法。

Apr, 2021

通过模型内省理解和检测神经机器翻译中的幻觉

通过分析相对标记的贡献来确定神经序列生成模型的幻觉内在模型症状，使用这些症状设计出一个轻量级的幻觉检测器，在手动标注的英中和德英翻译测试上优于基于质量估计或大型预训练模型的分类器。

Jan, 2023

寻找稻草堆中的针头：神经机器翻译中幻觉的全面研究

本文研究了神经机器翻译中的幻觉问题，提出了一种基于不确定性的检测方法，并探究了 DeHallucinator 方法在测试阶段缓解幻觉的效果。此外，作者还发布了一个标注数据集用于未来研究。

Aug, 2022

神经机器翻译中无监督幻象检测的最优输运

本文讨论如何通过优化传输和一个完全无监督的插件来检测 NMT 中的幻觉，并表明该检测器不仅优于所有先前的基于模型的检测器，而且与训练在数百万个样本上的大型模型的检测器有竞争力。

Dec, 2022

使用特征归因减少神经机器翻译中的幻觉

通过特征归因和正则化等方法，提出一种新的损失函数，可以有效降低神经机器翻译中的幻觉错误。

Nov, 2022

检测和缓解机器翻译中的幻觉：仅基于模型内部工作表现良好，基于句子相似度的方法表现更佳

提出了一种通过评估翻译中源语言贡献百分比的方法，以解决神经机器翻译中出现的幻觉问题，并发现使用跨语言嵌入的句子相似性有助于提高检测精度。

Dec, 2022

大型多语种翻译模型中的幻觉

本研究针对大规模多语言机器翻译，分析了 M2M 常规神经机器翻译模型和通用的 ChatGPT 模型中幻觉翻译的普遍性、特性和缓解措施，以期构建更加稳定和可信的机器翻译系统。

Mar, 2023

关于同时机器翻译中的虚构问题

通过对 SiMT 中幻觉的两个角度进行综合分析，即对幻觉词的分布和目标端上下文使用进行理解，研究发现通过减少 SiMT 中目标端信息的过度使用，可以减轻幻觉现象。

Jun, 2024

神经自动语音识别中的幻听：识别错误和幻听模型

此研究报告探讨了深度神经网络产生的幻觉是一类输出错误，在自动语音识别中幻觉的定义为模型生成的转录与源话语在语义上无关，但仍然流畅和连贯，幻觉与模型产生的自然语言输出相似性带来了误导的危险，并影响系统的可信度。为了解决这个问题，作者提出了一种基于干扰的方法来评估自动语音识别模型在测试时易于产生幻觉，该方法不需要访问训练数据集。作者展示了这种方法有助于区分在基准词错误率相似的情况下产生幻觉和不产生幻觉的模型。作者进一步探讨了自动语音识别错误类型与数据集噪声类型之间的关系，以确定最有可能产生幻觉输出的噪声类型。最后，作者通过给话语注入随机噪声的方式发现了诱导产生幻觉的方法。

Jan, 2024

神经机器翻译中的曝光偏差、幻觉和领域偏移

本论文从三个数据集中的多个测试域的实验中，展示了暴露偏差对于幻觉的部分责任，并且证明了避免暴露偏差的 Minimum Risk Training 可以缓解幻觉问题，并说明了暴露偏差在领域转移下更加问题，并且将其与 Beam Search 问题联系起来。因此，即使暴露偏差算法不会增加在领域测试集上的性能，但它们可以提高模型对领域移位的鲁棒性。

May, 2020