本文通过实验展示了人群智力数据集在自然语言理解中的存在问题和缺陷,建议在数据集创建过程中监控注释者的偏见,测试集注释者应该与训练集注释者无交集。
Aug, 2019
本研究探讨了近年来 NLU 领域中提高模型性能所依赖的标准化测试数据集的 inherent 问题: crowdsourcing 具有的 instruction bias(人工标注者所遵循的指示信息),该倾向导致被标注的数据集存在过多类似的样本,从而高度统计偏向性,使得模型无法在实际应用场景中良好泛化,进而提出一系列解决方案。
May, 2022
本文探讨了通过众包方式进行 NLP 数据集标注时,标注者之间的社会文化背景和个体经验差异可能导致的标签汇总引入了代表性偏差,并提高了数据集透明度和实用性的建议。
Oct, 2021
本研究旨在提出两种基于中华餐厅过程 (CRP) 先验概率和分层结构的全新无监督模型,以更好地处理众包数据标注中用户注释的质量问题,并利用 Gibbs 采样的高效推理算法对其进行实验验证。
Jul, 2014
针对网络暴力检测中的数据标注员意见分歧问题,提出了一种预测个体标注员评估与目标群体意见的模型,并通过结合潜在目标群体与评估进行评估,在预测任务中表现出了 22% 的性能提升和 33% 的模型不确定性预测能力。我们发现,标注员的评估可以通过其在线内容的人口统计信息和意见进行预测,而无需跟踪标注员 ID。同时,我们还发现在预测标注员意见时,使用非侵入性调查问题有助于最大程度保护隐私和最小化不必要的个人信息收集。
May, 2023
该研究探讨了多个注释者可用的监督 / 半监督学习场景下识别对抗性或不可靠注释者的问题。
May, 2016
基于主观分类任务,我们提出了适用于文本的 Annotator Aware Representations (AART) 方法,旨在改善采集标注者观点性能,并学习标注者行为特征。
Nov, 2023
通过使用语言特征和标签分布,我们介绍了一种无监督学习方法 CrowdOpinion,用于将类似项目汇集为更大的标签分布样本,其中涉及人工智能系统的公平性和人工注释者不一致问题的解决。
Jul, 2023
为了克服通过众包进行数据注释所需的时间和成本,我们提出使用填充方法来还原所有标注者对所有示例的观点,从而创建一个不排除任何注释者观点的数据集。
在主动学习设置中,多头模型在不确定性估计方面显着优于单头模型。通过设计和评估具有特定标注员头的获取函数在两个数据集上,我们展示了群体级别的熵在两个数据集上表现良好。重要的是,它在预测和不确定性估计方面的性能与全量训练相当,同时节约高达 70% 的标注预算。
Oct, 2023