ACLApr, 2021

关于机器翻译结果的大规模文档层面人工评估用户界面

TL;DR研究发现,针对机器翻译的人工评估需要考虑文本上下文,然而用户界面对于标注者的生产力和评估可靠性的影响却鲜有研究。本文通过比较两种不同方法获得的人工评估数据,证明了一个以文档为中心的评估方法可以提高数据的质量,但却需要更多的时间投资。