困难感知机器翻译评估
本研究介绍了一种基于神经网络度量的机器翻译质量不确定性评估方法,并结合蒙特卡罗 dropout 和深度集成等两种不确定度估计方法,得出质量分数以及置信区间。通过对来自 QT21 数据集和 WMT20 度量任务的多语种数据进行实验,验证了该方法的性能,进一步探讨了不依赖参考文献的不确定性评估在发现可能的翻译错误中的应用。
Sep, 2021
本文研究了自动机器翻译度量在句子级别(段落级别评估)中区分好的翻译和坏的翻译的可靠性,并研究了在较大平台中放置机器翻译组件的成功率检测中 MT 度量的有用性。我们在三个下游跨语言任务(对话状态跟踪,问题回答和语义分析)上评估了最广泛使用的 MT 度量(chrF,COMET,BERTScore 等)的段落级别性能。我们的实验表明,所有的度量标准与下游结果的内在评估显示出微不足道的相关性。我们还发现,神经度量提供的分数大多数不是可解释的,因为其值域未定义。我们的分析表明,将来的 MT 指标应该被设计成产生错误标签而不是得分,以便于外在评估。
Dec, 2022
本文介绍了第七届机器翻译会议的机器翻译任务自动评估,其中评估了 185 种系统,包括高资源到低资源语言对和从密切相关到远离的语言。自动度量标准 chrF、BLEU 和 COMET 可以相互补充以减轻解释性和准确性方面的限制,并凸显了当前最先进的机器翻译系统的一些局限性。
Sep, 2022
研究机器翻译质量评估的难点在于缺乏标准程序及评估方法的计量问题。本研究提出一套基于明示错误分析及 MQM 框架的评估方法,并应用于 WMT 2020 挑战赛的两个语言对中来自高水平机器翻译模型的输出进行评估。评估结果与 WMT 众包评估结果不同,人工翻译的结果被明显偏爱,但自动评估指标基于预训练嵌入的表现也足以胜过人工众包评估,为今后的研究提供公共语料库。
Apr, 2021
研究了自动度量在机器翻译系统开发和评估中的问题,发现现有的判断度量方法对于用于评估的翻译非常敏感,特别是存在异常值的情况下,经常会导致关于指标作用的错误结论。研发了一种用于阈值性能提高的算法,可以模拟在与人工判定相比的情况下出现的 2 类误差。这些结果表明,需要改进度量评估和系统性能评估协议。
Jun, 2020
通过使用机器翻译来增强现有的英文对话数据,我们提出了一个绕过数据缺乏问题的方法,用于开发鲁棒的多语言对话评估指标,并通过实验证明,与仅使用源数据微调多语言模型的强基线相比,仅仅使用翻译数据微调预训练的多语言编码器模型的天真方法无法取得更好的性能。相反,最佳方法是通过使用机器翻译质量估计度量仔细策划翻译数据,排除低质量翻译对其性能的影响。
Aug, 2023
通过提供一个英韩语言对的 1200 句 MQM 评估基准,将机器翻译评估重新定义为使用 SOTA 语言模型同时预测多个 MQM 分数的多任务问题,在参考 MT 评估和无参考质量估计(QE)设置中,我们发现无参考设置在风格维度上优于参考设置,而参考模型在准确性方面保持优势,总体上,RemBERT 是最有希望的模型。通过我们的评估,以一种更精细化、可解释的方式提供了关于翻译质量的见解。
Mar, 2024
本文是机器翻译评估的第一篇大规模元评估,发现了在过去十年中自动 MT 评估的做法已经发生了巨大的变化和令人担忧的趋势。我们提出了指南来鼓励更好的自动 MT 评估,并提出了一个简单的元评估评分方法来评估其可靠性。
Jun, 2021
本文提出了一种基于双向蕴含的机器翻译评估新指标,利用深度学习实现候选和参考翻译之间的语义相似度评分,应用于 WMT'14 和 WMT'17 数据集,与传统指标相比在系统级别上具有更好的与人工注释评分的相关性。
Nov, 2019
我们引入了一个新的广泛的多维质量度量(MQM)注释数据集,涵盖了生物医学领域的 11 种语言对。我们利用该数据集来研究在训练和推理之间领域转移时,是否基于人工生成的机器翻译质量评判进行微调的机器翻译(MT)度量指标是否具有稳健性。我们发现,在未知领域情况下,经过微调的度量指标与依赖表面形式的度量指标以及未经过 MT 质量评判的预训练度量指标相比,表现出显著的性能降低。
Feb, 2024