Apr, 2021
专家、误差与上下文: 人工评估机器翻译的大规模研究
Experts, Errors, and Context: A Large-Scale Study of Human Evaluation
for Machine Translation
TL;DR研究机器翻译质量评估的难点在于缺乏标准程序及评估方法的计量问题。本研究提出一套基于明示错误分析及MQM框架的评估方法,并应用于WMT 2020挑战赛的两个语言对中来自高水平机器翻译模型的输出进行评估。评估结果与WMT众包评估结果不同,人工翻译的结果被明显偏爱,但自动评估指标基于预训练嵌入的表现也足以胜过人工众包评估,为今后的研究提供公共语料库。