数据视角统一和个性化：社会规范应用

Oct, 2022

数据视角统一和个性化：社会规范应用

Unifying Data Perspectivism and Personalization: An Application to Social Norms

Joan Plepi, Béla Neuendorf, Lucie Flek, Charles Welch

TL;DR本文针对社交媒体上的冲突话题，研究了如何利用个性化方法对 13k 个标注者进行标注，比较了该方法在预测社交规范感知方面的有效性，并对不同关系下的社会情境的性能进行了分析。

Abstract

Instead of using a single ground truth for language processing tasks, several recent studies have examined how to represent and predict the labels of the set of annotators. However, often little or no information about

annotators social media conflict personalization social norms

发现论文，激发创造

语料库考虑注释模型的建立与扩展

旨在全面涵盖多样性的标注任务中，仅依赖于大多数类别标签的模型可能会无意中忽视宝贵的少数派观点，因此需要探索各种标注者建模技术的有效性，并比较它们在七个语料库中的性能。通过研究发现，常用的用户标记模型始终胜过更复杂的模型，并引入了一种复合嵌入方法，展示了模型性能与给定数据集的一致性之间的明显差异。这些发现揭示了语料统计和标注者建模性能之间的关系，为语料构建和多视角自然语言处理的未来工作提供了启示。

Apr, 2024

关于发布数据集中的标注者层次标签和信息

本文探讨了通过众包方式进行 NLP 数据集标注时，标注者之间的社会文化背景和个体经验差异可能导致的标签汇总引入了代表性偏差，并提高了数据集透明度和实用性的建议。

Oct, 2021

众人的声音都很重要：利用人口统计信息量化注释不一致性

通过提取注释者在五个主观数据集中的选票历史中的不同意标签，并微调语言模型来预测注释者的不同意。结果表明，了解注释者的人口统计信息可以帮助预测不同意见。通过模拟不同的注释者人工人口统计信息，来区分文本内容固有的争议和注释者不同观点之间的分歧，旨在通过一种新颖的分歧预测机制，改进注释流程，实现更高效和包容性的 NLP 系统。

Jan, 2023

处理意见不合：超越主观标注中的多数派投票

通过研究多注释者模型的功效，我们的多任务方法将预测每个注释者的判断作为单独的子任务并共享任务的共同学习表示来解决注释者间的不一致性问题，并且表明这种方法比在训练之前聚合标签的方法在七个不同的二元分类任务中产生了相同或更好的性能。此外，在我们的方法中，我们证明我们可以估计不确定性，这些不确定性更好地与注释不一致性相关联，而这种模型不确定性特别适用于知道何时不作出预测的部署场景。

Oct, 2021

我们在模拟任务还是模拟标注者？—— 自然语言理解数据集中标注者倾向的研究

本文通过实验展示了人群智力数据集在自然语言理解中的存在问题和缺陷，建议在数据集创建过程中监控注释者的偏见，测试集注释者应该与训练集注释者无交集。

Aug, 2019

当大多数人都错了：利用注释者的分歧来完成主观任务

针对网络暴力检测中的数据标注员意见分歧问题，提出了一种预测个体标注员评估与目标群体意见的模型，并通过结合潜在目标群体与评估进行评估，在预测任务中表现出了 22% 的性能提升和 33% 的模型不确定性预测能力。我们发现，标注员的评估可以通过其在线内容的人口统计信息和意见进行预测，而无需跟踪标注员 ID。同时，我们还发现在预测标注员意见时，使用非侵入性调查问题有助于最大程度保护隐私和最小化不必要的个人信息收集。

May, 2023

主观 NLP 任务的两种对比数据注释范式

本研究提出使用描述性和规范性两种策略来标注数据，探讨了两种策略的优劣，并且借助仇恨言论数据的标注实验来说明两种策略的不同。

Dec, 2021

通过少样本注释者适应实现成本高效的主观任务注释和建模

通过使用多样的标注员并最大限度降低标注预算，我们提出了一个新的主观任务注释收集和建模框架，通过两阶段设计，使用少量标注员和有策略地标注一些样本，提高了预测性能，并减少了注释预算，同时我们构建了一个包含 2000 个 Reddit 帖子的独特数据集，并在两个数据集上展示了我们的框架超越之前的最优结果，捕捉了标注员个体视角并减少了性能差异。

Feb, 2024

跨多元社群中有毒评论识别的主观建模（通过模仿标注者注释）

在线毒性讨论的普及和影响使内容管理至关重要。自动化系统在识别有毒评论和减少对人工管理的依赖方面起着至关重要的作用。然而，识别多样化社区的有毒评论仍然存在挑战，本研究对此进行了探讨。

Nov, 2023

D3CODE: 跨文化数据中的冒犯性检测与评估中的差异分析

通过广泛的平行标注来考虑不同社会和文化群体的道德价值观，在跨文化数据集中揭示了标注者感知的区域差异，为构建包容性、具有文化敏感性的自然语言处理模型提供了关键见解。

Apr, 2024