如何制定有效的群众外包协议以解决困难的自然语言理解（NLU）数据收集任务？

ACLJun, 2021

如何制定有效的群众外包协议以解决困难的自然语言理解（NLU）数据收集任务？

What Ingredients Make for an Effective Crowdsourcing Protocol for Difficult NLU Data Collection Tasks?

Nikita Nangia, Saku Sugawara, Harsh Trivedi, Alex Warstadt, Clara Vania...

TL;DR本文以多项选择问题回答为测试基础，运用随机实验、数据收集协议及专家评估对比效果，发现训练众包工作者并采用迭代数据收集、传递回馈、基于专家判断进行筛选更为有效，但将普通众包判断及回馈替换为专家判断及回馈则效果不佳，最终观察到具有专家评估的迭代协议数据等级高于基线协议数据，并且人 - 模型差距大约是基准协议数据的两倍。

Abstract

crowdsourcing is widely used to create data for common natural language understanding tasks. Despite the importance of these datasets for measuring and refining model understanding of language, there has been little focus on the →

crowdsourcing data quality natural language understanding multiple-choice question answering iterative data collection

发现论文，激发创造

我们在模拟任务还是模拟标注者？—— 自然语言理解数据集中标注者倾向的研究

本文通过实验展示了人群智力数据集在自然语言理解中的存在问题和缺陷，建议在数据集创建过程中监控注释者的偏见，测试集注释者应该与训练集注释者无交集。

Aug, 2019

众包改写收集中任务设计权衡的理解

本研究是对众包方法进行语义重述数据采集的系统研究，旨在探讨任务设计中准确性和多样性之间的平衡关系，并提出未来语义重述集采集的指导意见。

Apr, 2017

众包工作者撰写蕴含示例的具体实施：从众多不良方案中挑选最优选项

本研究探讨了三种自然语言推理数据集的构建方法 ——crowdworker writing，自动构建以及折衷方案，并在此基础上收集了新的英文 NLI 数据集。实验结果表明，crowdworker writing 仍是 NLI 数据集构建的最佳选择。

Oct, 2020

将语言学家参与是否提高 NLU 数据收集的效果？

本研究以自然语言推理为测试案例，探究在众包数据收集过程中加入语言学家以动态地识别和解决数据中的漏洞和偏见是否有利于减轻偏见，提高数据的可靠性。对比了三种数据收集方案，发现加入语言学家对数据的挑战性的提高不会将数据的质量降低，并提出建议在数据收集期间整合专家的分析以解决数据中的偏见和系统漏洞。

Apr, 2021

文本蕴涵数据收集的新协议和负面结果

该研究提出了四种新的众包协议来收集 NLI 数据集，以改善训练样本的质量和多样性，然而实验结果表明这些新方法在迁移学习的任务中没有优势，但它们可以显著降低注释文本中的问题。

Apr, 2020

增强数据质量保证的众包方法：缓解医疗领域大型语言模型训练中资源稀缺挑战的有效途径

本研究提出了一种在低资源领域（如医疗保健）采用预处理、实时控制和数据收集后的质量控制措施来改善数据质量的众包框架，通过评估 Bio-BERT 对预测自闭症相关症状的影响，结果显示实时质量控制相较于预处理可提高数据质量 19％，尽管在精度方面有所降低，但使用众包数据进行 Bio-BERT 的微调通常会提高召回率。本研究揭示了众包和质量控制在资源有限环境中优化医疗保健大型语言模型以进行明智决策和改善患者护理的潜力。

May, 2024

无标准数据情况下的众包研究 -- 案例分析

本文研究了在线辅导平台上对话的困扰个体的情绪估计的主观评估任务，探讨了聚合评估者选择的策略，展示了一个简单的投票共识与优化聚合方法在这个任务中同样有效，并设计了一种机器学习算法来执行相同的任务。有趣的是，我们观察到了一个没有明确建模评估者主观性的机器学习算法，在评估最主要的情绪时与人类评估一样可靠。

Jun, 2019

互补强制众包的异常失败

本文介绍使用众包技术对补全强制现象进行注释的方法，提出了显式补全和自然语言推断两种任务，但是在众包过程中得分较低，通过分析本研究的建模方案和与以前研究的不同之处，我们得出结论，该现象需要量身定制的解决方案，不仅需要专业算法，还需要特定的数据收集方法。

Oct, 2020

借助人工智能协作：为营养咨询寻找高质量数据集

使用大型语言模型，结合众包工人和营养专家，在缺乏公共资源的营养咨询领域，成功地聚集了一系列高质量的数据集，并通过专家评估得出，ChatGPT 生成的文本在流畅度和人类化方面表现出色，但在敏感话题（如心理健康）中存在不利行为，不适合无监督使用。

Jan, 2024

众包标注群体真相的经验方法学

本篇文章提出了使用 CrowdTruth 衡量指标来有效地收集多领域多任务的 ground truth 数据，比传统的投票方式更具优势，并研究了人数增加对标注质量的影响。

Sep, 2018