将工人视角融入 MTurk NLP 标注实践
该论文讨论了众包工人在 NLP 研究中的伦理问题,提出了应考虑 Belmont 报告中的三个伦理原则评估这些风险,并澄清了有关 Institutional Review Board(IRB)申请的一些常见误解。
Apr, 2021
通过一个由三个步骤组成的资格认证系统,成功筛选优质的 MTurk 工作者来改善众包平台获取高质量人类标注的困难性,并优化人力资源的使用,本文探讨了此方法的有效性,可作为处理其他繁琐的标注任务的基础。
Dec, 2022
本文对目前 45 篇与开放式文本生成相关的论文进行了调查,并发现它们中绝大多数未报告有关 Amazon Mechanical Turk 任务的关键细节,从而影响了可重复性。本文还进行了故事评估实验,发现即使使用严格的资格筛选器,AMT 工作者(与教师不同)也无法区分模型生成的文本和人类生成的参考文本。研究表明,当 AMT 工人同时展示模型生成的输出和人类生成的参考文本时,工人的判断能力得到了提高,并为评估过程提供了深刻的洞察。
Sep, 2021
本次调查分析了 NLP 模型的社会影响,探讨了 NLP 算法中存在性别、种族和文化偏见的根源,定义了公平性,并说明了 NLP 各个子领域如何减少系统存在的偏见,最终讨论了未来研究如何消除 NLP 算法中的有害偏见。
Mar, 2022
本文通过实验展示了人群智力数据集在自然语言理解中的存在问题和缺陷,建议在数据集创建过程中监控注释者的偏见,测试集注释者应该与训练集注释者无交集。
Aug, 2019
研究对众包工人支付等同于美国联邦最低工资的工资进行了广泛探讨。同时,收集高质量标注的研究建议使用需要工人先完成一定数量任务的资格考试。本文通过分析工人讨论和研究者的指导,发现工人需要完成约 2.25 个月的低报酬任务才能获得更好的报酬。通过对两个 NLP 任务进行资格考试和工作质量之间的相关性研究,本研究发现可以在减轻工人负担的前提下收集高质量的数据。
May, 2021
本文通过一项针对 312 名 NLP 群体成员的调查,对当前自然语言处理中在环境影响、公平性等三个方面所引起问题的现状与成因进行了分析,并提出了一些缓解措施。
Jun, 2023
本文以多项选择问题回答为测试基础,运用随机实验、数据收集协议及专家评估对比效果,发现训练众包工作者并采用迭代数据收集、传递回馈、基于专家判断进行筛选更为有效,但将普通众包判断及回馈替换为专家判断及回馈则效果不佳,最终观察到具有专家评估的迭代协议数据等级高于基线协议数据,并且人 - 模型差距大约是基准协议数据的两倍。
Jun, 2021