英乌机器翻译的主客观评估
自 20 世纪 50 年代以来,机器翻译 (MT) 已成为人工智能和开发的重要任务之一,并经历了几个不同阶段的发展,随着这些发展,评估方法在统计翻译和神经翻译研究中扮演着重要角色,该报告概述了评估方法的发展历程、研究方法分类和最新进展,并包括参考翻译的手动评估和自动评估方法。
Feb, 2022
研究机器翻译质量评估的难点在于缺乏标准程序及评估方法的计量问题。本研究提出一套基于明示错误分析及 MQM 框架的评估方法,并应用于 WMT 2020 挑战赛的两个语言对中来自高水平机器翻译模型的输出进行评估。评估结果与 WMT 众包评估结果不同,人工翻译的结果被明显偏爱,但自动评估指标基于预训练嵌入的表现也足以胜过人工众包评估,为今后的研究提供公共语料库。
Apr, 2021
本文是机器翻译评估的第一篇大规模元评估,发现了在过去十年中自动 MT 评估的做法已经发生了巨大的变化和令人担忧的趋势。我们提出了指南来鼓励更好的自动 MT 评估,并提出了一个简单的元评估评分方法来评估其可靠性。
Jun, 2021
研究了自动度量在机器翻译系统开发和评估中的问题,发现现有的判断度量方法对于用于评估的翻译非常敏感,特别是存在异常值的情况下,经常会导致关于指标作用的错误结论。研发了一种用于阈值性能提高的算法,可以模拟在与人工判定相比的情况下出现的 2 类误差。这些结果表明,需要改进度量评估和系统性能评估协议。
Jun, 2020
本文提出了一种基于多维质量度量(Multidimensional Quality Metrics,MQM)误差分类的手动评估方法,以评估不同机器翻译系统之间的性能差异是否显著,针对英语到克罗地亚语这一翻译方向,比较了纯基于短语的、分解短语的和神经网络三种不同范例的机器翻译系统,发现神经网络机器翻译方法在长距离一致现象的处理方面具有特别的有效性。
Feb, 2018
本研究基于一个手动设计的语言测试套件,分析了 16 种 MT 系统在德 - 英翻译中的性能表现,可对它们基于性能在不同类别的漏洞和优势进行比较和鉴定。
Oct, 2019
本文关注机器翻译对情感文本的翻译表现,并通过提出的基于多维质量度量的评估框架,对谷歌翻译的输出进行评估。作者发现大约 50% 的机器翻译输出没有保留原始情感,并认为情感承载词和语言现象是这些翻译错误的常见原因。
Jun, 2023
本研究介绍了一种基于神经网络度量的机器翻译质量不确定性评估方法,并结合蒙特卡罗 dropout 和深度集成等两种不确定度估计方法,得出质量分数以及置信区间。通过对来自 QT21 数据集和 WMT20 度量任务的多语种数据进行实验,验证了该方法的性能,进一步探讨了不依赖参考文献的不确定性评估在发现可能的翻译错误中的应用。
Sep, 2021