COLINGMar, 2024

多维机器翻译评估:韩语模型评估和资源

TL;DR通过提供一个英韩语言对的 1200 句 MQM 评估基准,将机器翻译评估重新定义为使用 SOTA 语言模型同时预测多个 MQM 分数的多任务问题,在参考 MT 评估和无参考质量估计(QE)设置中,我们发现无参考设置在风格维度上优于参考设置,而参考模型在准确性方面保持优势,总体上,RemBERT 是最有希望的模型。通过我们的评估,以一种更精细化、可解释的方式提供了关于翻译质量的见解。