通过研究多注释者模型的功效,我们的多任务方法将预测每个注释者的判断作为单独的子任务并共享任务的共同学习表示来解决注释者间的不一致性问题,并且表明这种方法比在训练之前聚合标签的方法在七个不同的二元分类任务中产生了相同或更好的性能。此外,在我们的方法中,我们证明我们可以估计不确定性,这些不确定性更好地与注释不一致性相关联,而这种模型不确定性特别适用于知道何时不作出预测的部署场景。
Oct, 2021
在主动学习设置中,多头模型在不确定性估计方面显着优于单头模型。通过设计和评估具有特定标注员头的获取函数在两个数据集上,我们展示了群体级别的熵在两个数据集上表现良好。重要的是,它在预测和不确定性估计方面的性能与全量训练相当,同时节约高达 70% 的标注预算。
Oct, 2023
本文提出了新的方法以通过温度调节和 Jensen-Shannon 中心法从众包注释中汇总多个视角的分布,从而获得软标签。我们展示了这些聚合方法在四项自然语言处理任务中表现出最佳或接近最佳的性能,同时还验证了这些方法在任务不确定性估计上表现最佳。
Dec, 2022
通过提取注释者在五个主观数据集中的选票历史中的不同意标签,并微调语言模型来预测注释者的不同意。结果表明,了解注释者的人口统计信息可以帮助预测不同意见。通过模拟不同的注释者人工人口统计信息,来区分文本内容固有的争议和注释者不同观点之间的分歧,旨在通过一种新颖的分歧预测机制,改进注释流程,实现更高效和包容性的 NLP 系统。
Jan, 2023
通过使用语言特征和标签分布,我们介绍了一种无监督学习方法 CrowdOpinion,用于将类似项目汇集为更大的标签分布样本,其中涉及人工智能系统的公平性和人工注释者不一致问题的解决。
Jul, 2023
本文调查了众包数据集标注的伦理考虑,提出了 ML 数据管道各阶段的一系列推荐和考虑因素。
Dec, 2021
基于主观分类任务,我们提出了适用于文本的 Annotator Aware Representations (AART) 方法,旨在改善采集标注者观点性能,并学习标注者行为特征。
Nov, 2023
针对网络暴力检测中的数据标注员意见分歧问题,提出了一种预测个体标注员评估与目标群体意见的模型,并通过结合潜在目标群体与评估进行评估,在预测任务中表现出了 22% 的性能提升和 33% 的模型不确定性预测能力。我们发现,标注员的评估可以通过其在线内容的人口统计信息和意见进行预测,而无需跟踪标注员 ID。同时,我们还发现在预测标注员意见时,使用非侵入性调查问题有助于最大程度保护隐私和最小化不必要的个人信息收集。
May, 2023
通过多任务学习和基于损失的标签修正,我们提出了一种学习多样化意见更准确表达的方法,并展示了该方法在单个或多个注释者注释情况下改善预测性能的能力,同时对主观数据应用的附加标签噪音也表现出鲁棒性。
本文通过实验展示了人群智力数据集在自然语言理解中的存在问题和缺陷,建议在数据集创建过程中监控注释者的偏见,测试集注释者应该与训练集注释者无交集。
Aug, 2019