词对齐作为机器翻译的偏好
我们介绍了一种基于 Optimal Transport 的单词对齐器 OTTAWA,旨在增强机器翻译系统中幻觉和遗漏的检测能力。与现有方法相比,在 HalOmi 基准测试的 18 种语言对上,我们的方法取得了竞争性的结果,并具有识别错误类型和进行单词级检测的能力,而无需访问机器翻译系统的内部状态。
Jun, 2024
通过对 SiMT 中幻觉的两个角度进行综合分析,即对幻觉词的分布和目标端上下文使用进行理解,研究发现通过减少 SiMT 中目标端信息的过度使用,可以减轻幻觉现象。
Jun, 2024
提出了一种通过评估翻译中源语言贡献百分比的方法,以解决神经机器翻译中出现的幻觉问题,并发现使用跨语言嵌入的句子相似性有助于提高检测精度。
Dec, 2022
大型多语言机器翻译系统在提高翻译准确性方面取得了重要突破,但即使是最好的系统仍然会出现幻觉,严重影响用户的信任。使用大型语言模型和大规模多语言嵌入中的语义相似度来评估幻觉检测方法。对于高语料资源语言来说,Llama3-70B 的性能比之前的最新技术提高了 0.16 个 MCC(马修斯相关系数);然而,对于低资源语言,我们观察到 Claude Sonnet 相对于其他大型语言模型的平均性能提高了 0.03 个 MCC。我们研究的核心发现是,尽管大型语言模型并非明确针对任何机器翻译任务进行训练,但它们可以达到与以前提出的模型相当甚至更好的性能,尽管它们在低资源语言方面的优势较小。
Jul, 2024
本研究针对大规模多语言机器翻译,分析了 M2M 常规神经机器翻译模型和通用的 ChatGPT 模型中幻觉翻译的普遍性、特性和缓解措施,以期构建更加稳定和可信的机器翻译系统。
Mar, 2023
大型语言模型(如 ChatGPT、Bard 和 Llama)在不同领域的应用中取得了显著的成功。然而,虚假生成是限制其广泛应用的关键问题。本报告意在综述虚假生成检测和虚假生成减轻的现有文献,旨在为对大型语言模型和将其应用于实际任务感兴趣的工程师和研究人员提供参考。
Jan, 2024
通过引入偏好调优和自动生成数据的方法 POVID,本研究解决了视觉大语言模型中可能出现的幻觉问题,并通过直接偏好优化的强化学习模型提高了模型性能。
Feb, 2024
本文研究了神经机器翻译中的幻觉问题,提出了一种基于不确定性的检测方法,并探究了 DeHallucinator 方法在测试阶段缓解幻觉的效果。此外,作者还发布了一个标注数据集用于未来研究。
Aug, 2022
通过引入一种名为【自我检测】的新技术,本研究提出了一种预防性策略来减少大型语言模型中的 “幻觉” 现象,实验证明该技术在幻觉检测方面表现优异,对于提高语言助手的可靠性、适用性和解释性具有重要意义。
Sep, 2023
本论文发布一个注释数据集用于检测机器翻译中出现的幻觉和省略现象,并重新访问了以前的幻觉和省略检测方法,建立了新的坚实基础。
May, 2023