超越 AMT: 众包平台分析
本文对目前 45 篇与开放式文本生成相关的论文进行了调查,并发现它们中绝大多数未报告有关 Amazon Mechanical Turk 任务的关键细节,从而影响了可重复性。本文还进行了故事评估实验,发现即使使用严格的资格筛选器,AMT 工作者(与教师不同)也无法区分模型生成的文本和人类生成的参考文本。研究表明,当 AMT 工人同时展示模型生成的输出和人类生成的参考文本时,工人的判断能力得到了提高,并为评估过程提供了深刻的洞察。
Sep, 2021
本文介绍了一种参与者对众包项目提供劳动的经济模型,并提出了一种估计工人保留工资的新方法,然后将此模型用于 Amazon’s Mechanical Turk(AMT)的一组工人的研究中,该组工人的保留工资近似为对数正态分布,中位工资为每小时 1.38 美元,并在实验测试中解释了众包工人如何对激励做出有理反应。
Jan, 2010
对 Amazon Mechanical Turk 进行的 2,676 个工人 3.8 百万个任务的研究表明,线上众包工作的收入极低,其中只有 4%的工人的平均每小时工资超过 7.25 美元,虽然平均请求者支付超过 11 美元 /h。同时,研究者还发现了一些特征,可以实现更高的小时工资,这为未来平台的设计和工人工具提供了信息。
Dec, 2017
通过一个由三个步骤组成的资格认证系统,成功筛选优质的 MTurk 工作者来改善众包平台获取高质量人类标注的困难性,并优化人力资源的使用,本文探讨了此方法的有效性,可作为处理其他繁琐的标注任务的基础。
Dec, 2022
本文研究了使用 Amazon Mechanical Turk 来廉价的生产机器翻译测试集,实验表明,该方法产生的测试集与专业生产的测试集对于系统性能的结论基本一致。
Oct, 2014
本文研究 LLMs 对众包工人的影响,通过对在 Amazon Mechanical Turk 上运行的一个摘要任务,发现 33-46% 的众包工人使用了 LLMs,因此需要找到新的方法确保数据来源于人类本身。
Jun, 2023
通过批判性文献综述和 MTurk 工作者的调查,我们发现当前在亚马逊众包平台中进行自然语言处理数据收集的方法在考虑工作者的角度上存在问题,因此我们提出了关于公平支付、工作者隐私、数据质量和工作者激励等方面的最佳实践,以更好地尊重工作者权益并提高数据质量。
Nov, 2023
本文提出了一种名为 LMTurk 的方法,将 pretrained language models 作为众包工作者进行任务注解,利用 active learning 减少对 PLMs 的查询,提高 few-shot learners 生成的注解的效率和准确性,从而在降低计算代价的同时提高当前 PLMs 的使用效果。
Dec, 2021
通过研究发现,微任务众包平台能够有效地捕捉 PubMed 文摘中的疾病提及,并通过专家投票方法将多个工作者的注释合并,生成 BioNLP 领域中完全标注的语料库。
Aug, 2014