MMTE:评估隐喻语言机器翻译质量的语料库和度量
本文提出了一种基于双向蕴含的机器翻译评估新指标,利用深度学习实现候选和参考翻译之间的语义相似度评分,应用于 WMT'14 和 WMT'17 数据集,与传统指标相比在系统级别上具有更好的与人工注释评分的相关性。
Nov, 2019
使用句子转换和余弦相似度来衡量语义上的相似度,本研究将 “文本相似性” 引入机器翻译(MT)质量估计(QE)作为一种新的度量标准。通过分析 MLQE-PE 数据集,我们发现文本相似性与人工评分的相关性比传统指标(hter、模型评估等)更强。应用 GAMMs 作为统计工具,我们证明了文本相似度在多种语言对中一致优于其他指标来预测人工评分。我们还发现 “hter” 在质量估计中无法准确预测人工评分。我们的发现突出了文本相似性作为一个强大的质量估计度量标准,建议将其与其他指标结合到 QE 框架和 MT 系统训练中,以提高准确性和可用性。
Jun, 2024
通过提供一个英韩语言对的 1200 句 MQM 评估基准,将机器翻译评估重新定义为使用 SOTA 语言模型同时预测多个 MQM 分数的多任务问题,在参考 MT 评估和无参考质量估计(QE)设置中,我们发现无参考设置在风格维度上优于参考设置,而参考模型在准确性方面保持优势,总体上,RemBERT 是最有希望的模型。通过我们的评估,以一种更精细化、可解释的方式提供了关于翻译质量的见解。
Mar, 2024
本文研究了使用平行语料库来估计由数据驱动机器翻译系统产生的翻译质量,并展示了该简单直接的方法对机器翻译系统的翻译质量估计具有潜在的应用价值。
Jun, 2023
本文是机器翻译评估的第一篇大规模元评估,发现了在过去十年中自动 MT 评估的做法已经发生了巨大的变化和令人担忧的趋势。我们提出了指南来鼓励更好的自动 MT 评估,并提出了一个简单的元评估评分方法来评估其可靠性。
Jun, 2021
通过对神经机器翻译实现对特定语言现象的质量评估,我们提出了一种新方法并给出了包含 97000 对用于 WMT 英语 -> 德语翻译任务的对照翻译数据集 LingEval97,对字符级别和字节对编码(BPE)分割模型的实验结果显示,前者在翻译转写方面表现更好,但在形态句法协议和翻译非连续的意义单元方面表现较差。
Dec, 2016
自 20 世纪 50 年代以来,机器翻译 (MT) 已成为人工智能和开发的重要任务之一,并经历了几个不同阶段的发展,随着这些发展,评估方法在统计翻译和神经翻译研究中扮演着重要角色,该报告概述了评估方法的发展历程、研究方法分类和最新进展,并包括参考翻译的手动评估和自动评估方法。
Feb, 2022
研究机器翻译质量评估的难点在于缺乏标准程序及评估方法的计量问题。本研究提出一套基于明示错误分析及 MQM 框架的评估方法,并应用于 WMT 2020 挑战赛的两个语言对中来自高水平机器翻译模型的输出进行评估。评估结果与 WMT 众包评估结果不同,人工翻译的结果被明显偏爱,但自动评估指标基于预训练嵌入的表现也足以胜过人工众包评估,为今后的研究提供公共语料库。
Apr, 2021
本文提出了一种基于多维质量度量(Multidimensional Quality Metrics,MQM)误差分类的手动评估方法,以评估不同机器翻译系统之间的性能差异是否显著,针对英语到克罗地亚语这一翻译方向,比较了纯基于短语的、分解短语的和神经网络三种不同范例的机器翻译系统,发现神经网络机器翻译方法在长距离一致现象的处理方面具有特别的有效性。
Feb, 2018
本研究介绍了一种基于神经网络度量的机器翻译质量不确定性评估方法,并结合蒙特卡罗 dropout 和深度集成等两种不确定度估计方法,得出质量分数以及置信区间。通过对来自 QT21 数据集和 WMT20 度量任务的多语种数据进行实验,验证了该方法的性能,进一步探讨了不依赖参考文献的不确定性评估在发现可能的翻译错误中的应用。
Sep, 2021