评分者分歧的分类：从在线毒性注释角度调查挑战与机遇

Nov, 2023

评分者分歧的分类：从在线毒性注释角度调查挑战与机遇

A Taxonomy of Rater Disagreements: Surveying Challenges & Opportunities from the Perspective of Annotating Online Toxicity

PDF

Wenbo Zhang, Hangzhi Guo, Ian D Kivlichan, Vinodkumar Prabhakaran, Davis Yadav...

TL;DR在线空间中的毒性问题是一个日益普遍且严重的问题，因此，过去十年的机器学习研究重点放在计算检测和缓解在线毒性上。然而，由于历史上此类标注往往存在较低的一致性，最近的研究指出了在构建和利用这些数据集时考虑这一任务的主观性的重要性，并激发了对评定者不一致性进行分析和更好理解以及如何将其有效纳入机器学习开发流程的研究。虽然这些努力填补了重要的空白，但缺乏更广泛的评定者不一致性根本原因的框架，因此我们将这项工作置于更广泛的背景之上。在这篇综述论文中，我们分析了关于在线毒性评定者不一致性原因的大量文献，并提出了详细的分类法。此外，我们还总结和讨论了针对每个不一致性原因的潜在解决方案，并讨论了几个能促进未来在线毒性研究发展的开放问题。

Abstract

toxicity is an increasingly common and severe issue in online spaces. Consequently, a rich line of machine learning research over the past

toxicity online spaces machine learning human-annotated datasets rater disagreement

发现论文，激发创造

跨多元社群中有毒评论识别的主观建模（通过模仿标注者注释）

在线毒性讨论的普及和影响使内容管理至关重要。自动化系统在识别有毒评论和减少对人工管理的依赖方面起着至关重要的作用。然而，识别多样化社区的有毒评论仍然存在挑战，本研究对此进行了探讨。

Nov, 2023

评分人身份对毒性注释的影响：您的毒性是否也是我的毒性？

本文探讨了标注者自我描述身份对在线评论毒性注释的影响，并提出了自我描述身份形成特定标注者池的概念。我们发现，使用与评论主题相同自我描述身份的标注者会为标注提供更具包容性和细微差别的结果，从而训练出更准确的机器学习模型。

May, 2022

为多元视角设计有害内容分类

本研究调查了 17280 名互联网用户对什么构成毒性内容的期望不同，发现那些历史上处于骚扰风险中的群体更可能将 Reddit、Twitter 或 4chan 上的随机评论标记为有毒，而那些亲身经历过骚扰的人也更可能这样做。基于我们的发现，我们展示了目前的一款面向所有用户的毒性分类算法 Perspective API，如何通过个性化模型调整平均提高 86％的准确性。最终，我们强调当前的缺陷和新的设计方向，以提高毒性内容分类器的公平性和效果。

Jun, 2021

多元评分组的（不）一致性评估框架

通过提出争议分析框架以测量不同评分人群的系统多样性，研究领域的人口统计轴线对安全批注至关重要。

Nov, 2023

同意不同意：在冒犯性词语数据集上注释注解者的不同意见

本文提出了一种用于创建自然语言数据集的方法，通过将标注者的观点选为不同的训练集和测试集，可以提高分类器的性能和鲁棒性，为社交媒体中的恶意语言检测提供更好的数据准备。

Sep, 2021

从有偏毒性标签学习的实证研究

本研究探讨不同训练策略如何利用少量人工注释标签和大量但带有偏见的合成标签（针对身份群体）来预测在线评论的毒性，并评估了这些方法的准确性和公正性。虽然最初使用所有数据进行训练并在干净数据上微调能够产生具有最高 AUC 的模型，但同时我们发现没有一种策略在所有公正度量标准上表现最佳。

Oct, 2021

哪种更有毒？来自 Jigsaw 对有毒评论的严重程度评估发现

本文比较评估了使用 transformers 和传统机器学习模型在 Jigsaw 最近发布的毒性严重度测量数据集上的表现，并通过可解释性分析展示了模型预测中的问题。

Jun, 2022

通过投票实现毒性分类

通过整合投票和思维链过程的数据集创建机制，本研究提出了一种高质量的开源数据集用于检测有毒内容。这种方法不仅确保了每个样本的多样化分类指标，还包括分类得分和解释性推理。我们利用通过我们提出的机制创建的数据集来训练我们的模型，并将其与现有的广泛使用的检测器进行了比较。这种方法不仅增强了透明度和可定制性，还有助于更好地针对特定用例进行微调。本研究为开发有毒内容检测模型提供了一个稳健的框架，强调了开放性和适应性，从而为更有效和用户特定的内容审核解决方案铺平了道路。

Jun, 2024

在线毒性检测的机器学习套件

本文使用数据科学的现代工具将原始文本转化成关键特征，并使用阈值法或学习算法对其进行分类以监控具有攻击性的网络对话，通过系统评估 62 个分类器，从 19 个主要算法组中抽取特征并分析其准确性及相对执行时间。在语法、情感、情绪以及离群字典的 28 个特征中，一个简单的脏词列表被证明是最有预测性的评价有攻击性评论的方法，其中基于树的算法提供最透明易懂的规则，并排列特征的预测贡献。

Oct, 2018

当大多数人都错了：利用注释者的分歧来完成主观任务

针对网络暴力检测中的数据标注员意见分歧问题，提出了一种预测个体标注员评估与目标群体意见的模型，并通过结合潜在目标群体与评估进行评估，在预测任务中表现出了 22% 的性能提升和 33% 的模型不确定性预测能力。我们发现，标注员的评估可以通过其在线内容的人口统计信息和意见进行预测，而无需跟踪标注员 ID。同时，我们还发现在预测标注员意见时，使用非侵入性调查问题有助于最大程度保护隐私和最小化不必要的个人信息收集。

May, 2023