TL;DR本文研究了使用 Amazon Mechanical Turk 来廉价的生产机器翻译测试集,实验表明,该方法产生的测试集与专业生产的测试集对于系统性能的结论基本一致。
Abstract
Building machine translation (MT) test sets is a relatively expensive task.
As MT becomes increasingly desired for more and more language pairs and more
and more domains, it becomes necessary to build test sets for each case. In
this paper, we investigate using Amazon's Mechanical Turk (MTurk) to make MT
test sets cheaply. We find that MTurk can be used to m
本文对目前 45 篇与开放式文本生成相关的论文进行了调查,并发现它们中绝大多数未报告有关 Amazon Mechanical Turk 任务的关键细节,从而影响了可重复性。本文还进行了故事评估实验,发现即使使用严格的资格筛选器,AMT 工作者(与教师不同)也无法区分模型生成的文本和人类生成的参考文本。研究表明,当 AMT 工人同时展示模型生成的输出和人类生成的参考文本时,工人的判断能力得到了提高,并为评估过程提供了深刻的洞察。