ACLApr, 2024

通过稳定的排名概率寻找可复制的人类评估

TL;DR本文以机器翻译及其人类评估框架 MQM 为案例研究,旨在探讨如何建立可靠的人类评估,以获得稳定的结论,并提供设计可复制的人类评估研究的具体建议,同时发布了由多名专业翻译人员评分的最大公开可用翻译数据集。