数据视角统一和个性化:社会规范应用
旨在全面涵盖多样性的标注任务中,仅依赖于大多数类别标签的模型可能会无意中忽视宝贵的少数派观点,因此需要探索各种标注者建模技术的有效性,并比较它们在七个语料库中的性能。通过研究发现,常用的用户标记模型始终胜过更复杂的模型,并引入了一种复合嵌入方法,展示了模型性能与给定数据集的一致性之间的明显差异。这些发现揭示了语料统计和标注者建模性能之间的关系,为语料构建和多视角自然语言处理的未来工作提供了启示。
Apr, 2024
本文探讨了通过众包方式进行 NLP 数据集标注时,标注者之间的社会文化背景和个体经验差异可能导致的标签汇总引入了代表性偏差,并提高了数据集透明度和实用性的建议。
Oct, 2021
通过提取注释者在五个主观数据集中的选票历史中的不同意标签,并微调语言模型来预测注释者的不同意。结果表明,了解注释者的人口统计信息可以帮助预测不同意见。通过模拟不同的注释者人工人口统计信息,来区分文本内容固有的争议和注释者不同观点之间的分歧,旨在通过一种新颖的分歧预测机制,改进注释流程,实现更高效和包容性的 NLP 系统。
Jan, 2023
通过研究多注释者模型的功效,我们的多任务方法将预测每个注释者的判断作为单独的子任务并共享任务的共同学习表示来解决注释者间的不一致性问题,并且表明这种方法比在训练之前聚合标签的方法在七个不同的二元分类任务中产生了相同或更好的性能。此外,在我们的方法中,我们证明我们可以估计不确定性,这些不确定性更好地与注释不一致性相关联,而这种模型不确定性特别适用于知道何时不作出预测的部署场景。
Oct, 2021
本文通过实验展示了人群智力数据集在自然语言理解中的存在问题和缺陷,建议在数据集创建过程中监控注释者的偏见,测试集注释者应该与训练集注释者无交集。
Aug, 2019
针对网络暴力检测中的数据标注员意见分歧问题,提出了一种预测个体标注员评估与目标群体意见的模型,并通过结合潜在目标群体与评估进行评估,在预测任务中表现出了 22% 的性能提升和 33% 的模型不确定性预测能力。我们发现,标注员的评估可以通过其在线内容的人口统计信息和意见进行预测,而无需跟踪标注员 ID。同时,我们还发现在预测标注员意见时,使用非侵入性调查问题有助于最大程度保护隐私和最小化不必要的个人信息收集。
May, 2023
通过使用多样的标注员并最大限度降低标注预算,我们提出了一个新的主观任务注释收集和建模框架,通过两阶段设计,使用少量标注员和有策略地标注一些样本,提高了预测性能,并减少了注释预算,同时我们构建了一个包含 2000 个 Reddit 帖子的独特数据集,并在两个数据集上展示了我们的框架超越之前的最优结果,捕捉了标注员个体视角并减少了性能差异。
Feb, 2024
在线毒性讨论的普及和影响使内容管理至关重要。自动化系统在识别有毒评论和减少对人工管理的依赖方面起着至关重要的作用。然而,识别多样化社区的有毒评论仍然存在挑战,本研究对此进行了探讨。
Nov, 2023
通过广泛的平行标注来考虑不同社会和文化群体的道德价值观,在跨文化数据集中揭示了标注者感知的区域差异,为构建包容性、具有文化敏感性的自然语言处理模型提供了关键见解。
Apr, 2024